Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路
6985点击    2026-04-21 10:25

Claude Mythos核心架构,竟被一个22岁天才扒了个精光!OpenMythos现已全开源,不靠堆参数,原地「循环思考」16次就能推理。闭源实验室的护城河,真的还在吗?


简直太疯狂了!


Anthropic捂得最严实的Claude Mythos,竟被一个22岁的年轻人扒开了。


Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路


不是泄露,不是内部员工跳槽带出来的。


是一个叫Kye Gomez的初创CEO,以第一性原理,硬生生把Claude Mythos的核心架构从头推导了出来。


更炸裂的是,他把这一项目——OpenMythos全开源了


Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路


Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路

复现帖引近100万人围观


一时间,全网都坐不住了,网友们纷纷惊叹Mythos背景精妙的设计。


Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路


Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路


Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路


不堆参数,原地「循环思考」16次


先说结论,Kye Gomez认为——


Claude Mythos的核心不是一个更大的Transformer,而是一种叫做「循环深度Transformer」(Recurrent-Depth Transformer, RDT)的架构


说白了就是,同一套权重,在一次前向传播里循环跑最多16次。


Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路


传统大模型像盖高楼,一层一层往上堆参数。100层不够就200层,200层不够就500层。


参数越多,模型越大,显存吃得越猛,训练成本越恐怖。


但RDT完全换了一个思路:不盖高楼,原地跑圈。


模型只有一个核心计算块,但这个块会被反复执行。每循环一次,隐藏状态就更新一次,就相当于「多想了一步」。


而且所有的思考都在连续潜空间里默默进行——不用像思维链(CoT)那样,每一步都吐出可见的token。


这不是重复计算,是迭代推理。


Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路


架构全拆解:三段式设计


整个OpenMythos的架构分三段:


Prelude(序曲)→ Recurrent Block(循环核心)→ Coda(终章)


Prelude和Coda是标准的Transformer层,各跑一次。


真正的计算核心是中间的「循环块」,它最多循环16次,每次循环的更新规则是:


h_{t+1} = A·h_t + B·e + Transformer(h_t, e)


其中e是Prelude编码后的原始输入,每一步都会被重新注入,防止模型在循环中「跑偏」。


Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路


MoE给广度,循环给深度


光靠循环能解释Mythos推理的「深度」,但解释不了广度。


OpenMythos在循环核心的每个FFN层,都替换成了MoE层,设计参考了DeepSeek-MoE:


  • 大量细粒度的路由专家;
  • 每个token只激活其中一小部分;
  • 少量「共享专家」始终激活,负责吸收跨领域的通用知识。


最精妙的一点,随着隐藏状态h_t在循环中不断演化,路由器在每一层循环深度会选择不同的专家子集。


也就是说,虽然权重共享,但每次循环的计算路径完全不同:


MoE提供广度,循环提供深度。


Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路

项目地址:https://github.com/kyegomez/OpenMythos


注意力机制默认使用「多潜变量注意力」(Multi-Latent Attention),来自DeepSeek-V2,把KV缓存压缩成低秩潜变量,在生产规模下能实现10-20倍的KV显存节省。


三个额外机制保证循环稳定性:LTI约束注入(谱半径强制小于1)、自适应计算时间(ACT)逐位置停机、以及深度级LoRA适配器让每次迭代都有独立的行为调整能力。


细思极恐,这套设计精密得像一台瑞士钟表。


770M打平1.3B,参数效率直接翻倍


这不是嘴上说说。


此前,来自Parcae团队的实验数据:一个770M参数的循环模型,在同等训练数据下,能达到1.3B标准Transformer的下游任务质量。


换句话说——用一半的参数,干了同样的活。


Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路


这对整个行业意味着什么?


对消费级硬件来说,这是天大的利好。以前跑个像样的模型,没有A100你连门都进不了。


现在呢?推理深度是时间换空间——你不需要更多的显存,只需要多跑几圈。


更重磅的是,这彻底改写了AI的Scaling法则。以前拼的是谁的参数多、谁的GPU多、谁的电费账单厚。


现在的规则变了:未来最强的模型,不是参数最多的,而是想得最多次的。


不过,作者也表示,这目前只是理论上的说法,还需要保留一些意见。


Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路


高中毕业,就当上了CEO


这位扒开22岁Claude Mythos黑箱的大男孩Kye Gomez,是Swarms的创始人,之前还领导过Agora Labs。


他的研究重点是——大规模多智能体系统、替代模型架构和多模态模型。


Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路


个人主页显示,Kye Gomez高中毕业之后,就开始投身于创业。


Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路


在2021年-2024年间,他同时担任了三家公司的联创/CEO,创建立了一个以 「APAC」为品牌的生态体系。


其覆盖了AI深科技、媒体、食品科技等多个领域。


Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路


22岁小哥,开源了Anthropic神级模型


这件事最让人震撼的,不是架构本身有多厉害。


是一个22岁的创业者,只用公开论文和第一性原理,就把Anthropic藏了一年的黑箱直接复现了出来。


还全开源了,而且只要几行代码就能跑。


这意味着什么?


闭源实验室的架构优势,正在以肉眼可见的速度消失。


FT最新报道中,Dario Amodei重磅预测,中国将在12个月内,完全复刻出具备Claude Mythos级别能力的大模型。


Claude Mythos核心架构开源!22岁天才一人破解,融合DeepSeek思路


针对外界对LLM性能是否触及天花板的质疑,Amode用一句富有诗意的话给出了回应——


彩虹没有尽头,只有彩虹本身。


他强调,目前完全看不到技术放缓的迹象。


当一个人用公开信息就能重建最核心的技术,护城河就不再是架构了。


参考资料:

https://x.com/KyeGomezB/status/2045659150340723107?s=20

https://github.com/kyegomez/OpenMythos


文章来自于"新智元",作者 "桃子"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md