2026年4月21日星期二

Claude 4。7实测:编程第一,但四个坑需警惕(费用涨35%)

Claude 4.7编程能力SWE-bench达64.3%排第一,但官方隐藏BrowseComp退步4.4%;token单价未变但实际费用最多涨35%;封号误判大V几小时解封,普通用户申诉成功率仅3.3%;新增强制人脸识别需护照或驾照。适合AI开发者和企业决策者参考。

Tags:

  点击下方,关注后台回复【666】,免费领取【AI学习礼包】     



大家好,我是陈凡。

Anthropic 发布 4.7 的同一天,在刷 X 的时候我发现了一件事。

官方那张 benchmark 数据表里,有一个指标,4.7 比 4.6 低了。全网几百篇发布解读,也都没提。

本着吃瓜精神,我把这件事查了个底儿掉,顺带扒出了另外三个坑。

听我给大家叨唠叨唠。

· · ·

编程能力确实炸了,数据在这

但在说明之前不得不说还得夸夸Claude,编程这块,4.7 是真的猛。

SWE-bench Pro,现在公认最接近真实工程场景的编程评测:
· 4.7 跑出了 64.3%
· 4.6 是 53.4%
· GPT-5.4 是 57.7%
· Gemini 3.1 Pro 是 54.2%

近 11 个点的提升,现在公开能用的模型里排第一,这没啥争议。

图片

Cursor 的 CEO Michael Truell 给了个实测数:CursorBench 上 4.7 完成 70% 的任务,4.6 是 58%,整整 12 个点。

还有个数字更夸张。做自动渗透测试的 XBOW,CEO 说他们的视觉精准度测评,4.7 是 98.5%,4.6 只有 54.5%。

以前有还一类任务跑不了,现在也直接全能跑了,单单就这一个升级,已经够他们买单了。

好,现在能力摆完了,继续说坑。

· · ·

坑一:有个退步数据,官方没提,我帮你提

就是我开头说那件事。

BrowseComp,测的是模型的网页浏览和信息采集能力,做 Agent 调研、自动抓信息的场景最相关。

官方 benchmark 数据,白纸黑字:

Opus 4.6:83.7%
Opus 4.7:79.3%

掉了 4.4 个点。

这不是并不是推测,而是 Anthropic 自己发的数据表。

图片

我翻了发布当天十几篇解读文章,没有一篇提这条。

为啥会退步?大概率是 4.7 在编程推理方向加了很多训练权重,某些通用能力被取舍掉了,这逻辑说得通,我也能理解没有全知全能的模型。

但只发好看的数据,把退步的那行藏着,这个操作,有点不地道。

· · ·

坑二:价格没涨,但账单最多贵 35%

单看 Token 单价,真的没变:

输入:$5 / 百万 tokens
输出:$25 / 百万 tokens

但 Anthropic 在官方迁移文档里,悄悄写了一句话,很多人没看到:

"Opus 4.7 使用了更新的 tokenizer,同样的输入文本会产生更多 tokens,幅度在 1.0 到 1.35 倍之间。"

翻译一下:同样一段代码、同样一个需求,4.7 处理起来会产生更多 tokens,最多可达 35%。

单价没涨,但量变多了,账单自然就高了。

个人用偶尔用,感觉不大。

要是公司层面跑大量 API 调用,建议拿几条实际请求先跑个对比,别等账单出来才发现多花了一大笔,那时候想回头已经来不及了。

价格没涨是真的,钱包扁了也是真的。这两句话同时成立。

· · ·

坑三:大 V 被封几小时解决,普通用户等两周没人理

这个得单说,因为最近这事闹得很大。

图片

4 月 10 日,OpenClaw(就是国内大家叫"小龙虾"的那个 AI Agent 工具)的创始人 Peter Steinberger,突然在 X 上发了一条推:

他的 Claude 账号被封了。

订阅账号和 API key,双双失效。邮件里写的是"账号出现可疑信号,违反使用政策,Claude 访问权限已撤销"。

违反了哪条?没说。

Peter 现在在 OpenAI 任职,但他解释说用 Claude 是为了测试 OpenClaw 对各家模型的兼容性,完全合规操作。

这条推发出去几小时,Anthropic 员工 Thariq 亲自下场:

"我们没有因为用 OpenClaw 封任何人,大概率是风控分类器误判,我来帮你解封。"
-- Anthropic 员工 Thariq

Peter 的号随后恢复了,然后评论区炸了。

大家关心的不是 Peter,而是:普通用户被误封了,谁来帮?

答案是:即使你提交申诉表单,等 1 到 2 周,也不见得不保证有人回。

背景数据更吓人:Anthropic 在 2025 年下半年,封了 145 万个账号,收到 5.2 万次申诉,最后只有 1700 次被推翻。

大 V 靠舆论压力几小时解封,普通用户交冷冰冰的表单等通知。

你要是把工作完全押在 Claude 上,这件事真值得想一想。

· · ·

坑四:4.7 发布当天,它还悄悄上了行业首家人脸识别

还有件事就是在这个时间点,卡得很巧。

就在 4.7 发布的同一天,4 月 16 日,Anthropic 悄悄更新了帮助中心页面,推出了身份验证机制。

要什么?实体证件,护照、驾照或国民身份证,必须是原件,截图、扫描件不认。加上现场自拍,做生物特征匹配。

数据给第三方公司 Persona 处理,Anthropic 说不用于训练、不共享给其他人。

但保留多久?没说。

目前所有主流 AI 平台,OpenAI 没这要求,Google 没这要求,只有 Anthropic。

开发者圈子里反应很大,有人直接说:

"我不介意 AI 知道我说了什么,但我不想把护照和人脸给一家美国公司。"

这担忧有没有道理,个人判断不同,我不多评价。

但这条规则选在 4.7 发布最热的那天悄悄上线,没有任何大规模公告,这个时机本身,就挺有意思的

· · ·

写到最后

4.7 的编程能力是真的强,这点没得洗。

但这四件事放一块儿看:BrowseComp 退步了没人提、tokenizer 变了费用涨了说价格没变、封号逻辑不透明大 V 才有绿色通道、人脸识别悄悄上线没有大公告。

不是说 Anthropic 做错了,而是它也开始暴露它赤裸裸的商业思维和所谓的安全逻辑了。

但这些信息,作为用户的你当然应该知道。

选工具要用脚投票,先把坑看清楚。

觉得有用,转给你身边还没看到这些的朋友。

最后非常感谢各位能坚持看到这儿,为了让大家能更快的提升大家AI方面的知识,我特别为粉丝准备了免费领取价值99的,3天的体验破解卡为你开启AI的学习之旅。
图片
图片
图片

扫码

链接我领礼包

图片
图片
图片
图片

没有评论:

发表评论

生化危机女主开源AI记忆系统MemPalace GitHub已获近5万星

MemPalace 是 Milla Jovovich 开源的本地AI长期记忆系统,支持语义搜索与四层记忆栈,在 LongMemEval 基准上纯本地检索召回率达96.6%。适合 AI 重度用户与开发者,完全本地运行、无需 API Key。需注意宫殿架构可能对检索性能有负面影响,早...