发布24小时,神话级Claude 5光速登顶!不仅创下AI史上最大分差纪录,更将GPT-5.5直接斩落马下。
就在刚刚,Arena全新的Agent Arena「智能体竞技场」榜单出炉!
神话级Claude Fable 5一举登顶,把昔日王者GPT-5.5、自家同门Opus-4.8一并斩落马下。

数据显示,Fable 5实现了高达11.2%「综合净提升」。
这一数据,一举创下了该榜单有史以来的最大分差纪录!

更让人出乎意料的是,在Vals AI三方评测中,Fable 5几乎在所有评测中位列第一。

发布才短短24小时,Claude Fable 5这波真的是强到可怕!
在Agent Arena榜上,拆出五个信号给模型打分,Fable 5在最硬的两项上拉开了恐怖的差距。
一个是,确认任务成功率(18.2%);另一个是,好评与投诉比(30.6%)。
下面这张图,足以解释Fable 5碾压级的统治力。

换句话说,在「能不能把活干完、用户满不满意」这两个最接近真实工作的指标上,Fable 5断崖式领先。
再看单项能力,Fable 5同样杀疯了,直接包揽Code Arena和Text Arena两大榜单王座。
尤其是编码,它狂揽72%的前端对决胜率,最终以98分的恐怖分差一骑绝尘,上演了真正的降维打击。



另外,Fable 5在工具幻觉项也是排名第一。

不仅如此,各大权威跑分也在疯狂印证着它的统治力。
在Artificial Analysis智能指数中,Fable 5斩获64.9分问鼎王座,领先近5分之多。
更夸张的是,在衡量真实工作任务的GDPval-AA榜单上,Elo一举冲破1932,将Opus 4.8远远甩在身后,重塑了行业的极限水准。

别以为它只会「应试」拿高分,Claude Fable 5实操起来同样能打,绝对是名不虚传。
接下来,上一道硬核视觉题:模拟流体墨水消融。
这类动态本来是拿来探模型上限的,结果Fable 5一次成型,干净利落,表现力拉满。

再比如,让Fable 5做个Windows,没想到,它直出了一整套能用的网页版Windows——
登录、通知、Edge、空当接龙,一应俱全。
还附赠一个 Copilot、一个 Minecraft 克隆、视觉玩法和几个 3D 世界。这哪是造系统,简直是是造了个生态。

而且,2011年度游戏——上古卷轴,仅需一句话,Fable 5就召唤出来。
游戏工作室们,可以准备下班了。

令人惊艳而是,Claude Fable 5(max)把「我的世界」搬进了 HTML,效果好得离谱。
方块、世界、玩法都立住了,它甚至自己加了背景音乐。

再让Fable 5可视化神经网络的注意力机制,展示一个小语言模型怎么生成故事。
结果是真的离谱,它做出来的是一个真·能跑的模型,此刻正通过 WebGPU 在我的浏览器里实时运行。
注意力的流动、文字的生成,全用粒子和物理在眼前铺开。

仅24小时,手搓一个模拟器
在Mechanize评测中,Fable 5同样在GBA Eval拿下了74.5%最高分。

而且,它在24小时内,直接手搓一个游戏模拟器,可以完美运行所有游戏。
用了不到2小时,战绩便超越了Opus 4.8。

作为首个公开的Mythos级模型,Fable 5一出生,用量直接盖过了自家的当红旗舰。
今天,OpenRouter给出了最新数据——
发布24小时内,Fable 5每天处理的Token量冲到约2050亿,而Opus 4.8是1470亿。

更关键的是,价格。Fable 5定价10美元 / 50美元每百万Token,整整是Opus 4.8的两倍。
用量更高,单价翻倍,
沃顿商学院CS教授Ethan Mollick直言,Fable启动一个工作流,Token直接被迅速消耗掉。

如今,Anthropic的发布节奏,已经不是「又出新模型了」那么简单,是肉眼可见地在加速。
把这一年的发布时间线摊开看,比任何单项跑分都吓人。
从Opus 4.7到Opus 4.8,42天。而从Opus 4.8到Fable 5,只用了12天。
间隔在坍缩,跳变却在变大。

所以真正该盯住的,从来不是某一张榜单的第一。是这条斜率还能陡多久。
当AI迭代的间隔加速,留给人类学会「驯服」它的那扇窗,也在以同样的速度变窄。
参考资料:
https://x.com/arena/status/2064807170714358193?s=20
https://x.com/OpenRouter/status/2064788002606309723?s=20
文章来自于"新智元",作者 "桃子"。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md