2026年6月10日星期三

Claude Fable 5 发布24小时登顶AI榜单 国内可用的执行型助手

Claude Fable 5 发布24小时即在Agent Arena登顶,综合净提升11.2%创历史最大分差。它在代码、网页、复杂视觉任务上表现突出,任务成功率提升18.2%,好评与投诉比改善30.6%。定价10-50美元/百万Token,约为Opus 4.8的两倍。适合需要AI执行多步骤复杂任务(如写代码、做网页、可视化知识)的普通用户和开发者。国内可通过指定入口获取服务。

Tags:

Claude Fable 5 发布 24 小时登顶:国内直接使用!

如果你平时不追模型榜单,只想知道一句话结论:

Claude Fable 5 不是简单“分数更高”,而是更像一个能把复杂任务接过去、自己拆解、自己执行、最后交付结果的 AI 助手。

发布才 24 小时,它就在 Agent Arena「智能体竞技场」登顶,把 GPT-5.5、Opus 4.8 等强模型甩在身后。

Agent Arena 榜单总览
Agent Arena 榜单总览

如果你想体验支持 Claude Fable 5 的账号或服务,原稿提供了一个购买入口:

https://maynorai.jichiyun.sbs/buy/10

这次最值得关注的不是“第一名”三个字,而是它领先的幅度。原稿数据显示,Fable 5 实现了 11.2% 的综合净提升,创下该榜单历史最大分差。

综合净提升数据
综合净提升数据

在 Vals AI 的第三方评测中,Fable 5 也几乎在所有评测里排到第一。

Vals AI 评测结果
Vals AI 评测结果

小白先看懂:这不是“聊天更聪明”,而是“干活更靠谱”

过去很多人评价 AI,喜欢看它会不会写文章、会不会回答问题。但这一次,真正拉开差距的是两个更接近真实工作的指标:

指标
原稿中的表现
小白怎么理解
任务成功率18.2%
交给它一件事,它更可能真的做完
好评与投诉比30.6%
用户更满意,翻车和抱怨更少
综合净提升11.2%
不是小幅领先,而是明显拉开差距
核心指标对比
核心指标对比

换成人话就是:你让它做 PPT、写方案、搭网页、查资料、写代码,它不只是“说得像”,而是更有机会把事情真的推进到可用状态。

它强在哪?先看三个场景

1. 写代码:不只是补几行代码,而是直接做出产品雏形

Fable 5 在 Code Arena 和 Text Arena 两大榜单都拿下第一。尤其是前端编码,原稿提到它拿到 72% 的前端对决胜率,最终以 98 分分差领先。




这对普通人意味着什么?

  • 你不懂代码,也可以让它帮你做一个网页原型。
  • 你只会描述需求,也可能得到一个能点、能看、能继续修改的版本。
  • 你不一定要先学完整编程体系,才能开始做自己的小工具。

当然,它不是万能外包,也不等于每次都完美。但它把“普通人从想法到可见作品”的门槛继续往下压了。

工具幻觉和任务表现
工具幻觉和任务表现

2. 复杂视觉和网页:一句话生成高完成度作品

原稿里举了一个很直观的例子:让 Fable 5 模拟「流体墨水消融」。

这种动态效果以前往往需要前端、动画、物理模拟等多方面能力。结果 Fable 5 可以一次成型,效果干净,表现力也强。

章节分隔图
章节分隔图
流体墨水消融演示
流体墨水消融演示

再比如,让它做一个网页版 Windows,它不仅做出登录、通知、Edge、空当接龙,还顺手补了 Copilot、Minecraft 克隆和 3D 世界。

网页版游戏/系统演示
网页版游戏/系统演示

这类能力对小白最有价值的地方是:你可以先用自然语言把脑子里的画面说出来,再让 AI 给你一个能看的第一版。

3. 解释复杂知识:把抽象概念变成可视化演示

原稿还提到一个更高级的案例:让 Fable 5 可视化神经网络的注意力机制,展示小语言模型如何生成故事。

这类内容本来很抽象,普通人很难一眼看懂。但如果 AI 能把注意力流动、文字生成过程做成动态网页,就会从“看不懂的论文概念”变成“眼前能观察的过程”。

注意力机制可视化演示
注意力机制可视化演示

这说明它不只是会回答问题,还能把问题变成更容易理解的形式。

榜单之外:真实工作能力也在变强

在 Artificial Analysis 智能指数中,Fable 5 拿到 64.9 分。在 GDPval-AA 这类更贴近真实工作任务的榜单里,它的 Elo 达到 1932

Artificial Analysis 与 GDPval-AA
Artificial Analysis 与 GDPval-AA

你不用记住这些名词,只要理解一点:这些测试越来越像真实工作,而不是单纯考试。

比如:

  • 能不能完成一个网页。
  • 能不能调工具。
  • 能不能持续推进多步骤任务。
  • 能不能少编不存在的工具和功能。
  • 能不能让用户满意。

这也是为什么 Fable 5 的意义更大。它代表 AI 正在从“回答型工具”变成“执行型助手”。

24 小时手搓模拟器:为什么大家这么震惊?

在 Mechanize 的 GBA Eval 中,Fable 5 拿到 74.5% 的最高分

GBA Eval 评测
GBA Eval 评测

更夸张的是,原稿提到它在 24 小时内手搓出一个游戏模拟器,并且用了不到 2 小时就超过 Opus 4.8 的表现。

对普通人来说,这说明一件事:AI 做复杂工程的速度正在变快。

以前你找人做一个工具,可能要沟通需求、排期、开发、测试。现在你可以先让 AI 做一个粗版本,再不断让它修改。即使最终还需要人把关,起步速度也已经完全不同。

用量暴涨,价格也更贵

强模型通常不只意味着能力提升,也意味着成本提升。

原稿提到,OpenRouter 数据显示,Fable 5 发布 24 小时内每天处理的 Token 量约 2050 亿,而 Opus 4.8 是 1470 亿

OpenRouter Token 用量
OpenRouter Token 用量

同时,Fable 5 定价为 10 美元 / 50 美元每百万 Token,大约是 Opus 4.8 的两倍。

价格与消耗讨论
价格与消耗讨论

这对小白的提醒很简单:

你要做什么
建议
日常问答、写小文案
不一定每次都用最强模型
写代码、搭网页、做复杂任务
可以优先考虑强模型
长文档、多轮任务、反复修改
要注意 Token 消耗
只是试试看
先用小任务测试效果

真正的变化:能力开始跑赢控制

Anthropic 的发布节奏也在加速。原稿提到,从 Opus 4.7 到 Opus 4.8 用了 42 天,而从 Opus 4.8 到 Fable 5 只用了 12 天。

章节分隔图
章节分隔图
Anthropic 发布时间线
Anthropic 发布时间线

这才是最值得普通人关注的地方:AI 能力升级的速度,正在超过很多人学习和适应的速度。

未来不会是“会不会用 AI”的区别,而是:

  • 谁能把问题描述清楚。
  • 谁能把任务拆成步骤。
  • 谁能判断结果是否可靠。
  • 谁能把 AI 输出变成自己的工作成果。

普通人该怎么用?

你可以先从这 5 类任务开始:

  1. 写文章:让它先列结构,再逐段润色。
  2. 做网页:描述你想要的页面、功能、风格。
  3. 学知识:让它用小白语言解释,再生成表格。
  4. 做方案:让它拆目标、列步骤、给预算和风险。
  5. 改代码:把报错贴进去,让它解释原因和修复方法。

最后,如果你想体验支持 Claude Fable 5 的账号或服务,提供了一个购买入口:

https://maynorai.jichiyun.sbs/buy/10

Claude 账号供应与购买入口
Claude 账号供应与购买入口

一句话总结:Claude Fable 5 的重点不是“更会聊天”,而是“更会干活”。普通人真正要学的,也不是背模型参数,而是学会把自己的需求讲清楚、拆清楚、验清楚。


没有评论:

发表评论

上海华为云发布Agent时代新基建 解决算力记忆安全四大卡点

华为云在2026年6月5日上海大会上发布Agentic基础设施,包括AICS智算集群、AMS记忆存储、Volcano Next调度引擎和AgentSphere安全环境。面向企业开发者,解决Agent推理慢、记忆差、调度乱、安全黑盒等问题,推理时延低于10毫秒,记忆规模达PB级,资...