读完这份 245 页的报告,我理解了 Anthropic 为什么不发布 Mythos
读完这份 245 页的报告,我理解了 Anthropic 为什么不发布 MythosAnthropic 最强的模型,也是他们不敢发布的模型
Anthropic 最强的模型,也是他们不敢发布的模型
前段时间有个叫 Happy Horse 的模型实火了一把,在知名 AI 评测分析平台 Artificial Analysis 上,直接把 Seedance 2.0 挤到了第二。
研究者们花了十年去扩展层内的计算能力,却忘了扩展层间的通信能力。
一年前,DeepSeek R1 横空出世,人们才意识到,真正让模型产生推理能力质变的,不必是更大的预训练规模 —— 后训练,用强化学习、过程奖励、闭环反馈,以极低的代价解锁了原本需要数倍算力才能触达的能力边界。
一张图在X上炸了:全球84%的人从未真正用过AI,16%偶尔玩玩免费聊天机器人,0.3%愿意每月付20美元,0.04%用AI写代码,0.01%是凌晨跑模型、买硬件的重度玩家。这不是鸡汤,微软官方数据托底。你天天刷AI资讯,以为全世界都在卷——其实你身处的那个圈子,是全球最顶端的0.01%。
很少看到黄仁勋这么激动。接近两个小时,正面回答关于英伟达一路在大模型时代涨到4万亿美元市值的种种问题。黄仁勋在“硅谷最受欢迎播客”的全新访谈,信息量有点高。视频发布半天,单在油管上的观看量已经超过10万+。
伯克利团队归纳出7种反复出现的模式:智能体和评测程序共享运行环境、标准答案暴露给被测系统、对不可信输入调用eval()、LLM裁判缺乏输入过滤、字符串匹配过于宽松、评分逻辑本身有bug、以及评测程序信任被测系统产生的输出。
4 月初,LM Arena 评测平台上出现了三个匿名图像模型,代号分别是 maskingtape-alpha、packingtape-alpha、gaffertape-alpha。几小时后它们消失了。OpenAI 官方还没有正式宣布这个模型,但根据 API 返回的元数据和用户侧的测试记录,它已经有了一个被广泛接受的名字:GPT Image 2。
前一阵特朗普刚下令五角大楼禁用 Claude,现在 Anthropic 最强新模型 Claude Mythos 的强大网络攻防能力,让白宫无法忽视这把双刃剑,顶着自己下的禁令,宁可打自己脸也要全面部署 Mythos 了。
上个月,智元刚刚跨过“机器人量产下线一万台”的门槛。4月17日,这家由前华为“天才少年”彭志辉与前华为副总裁邓泰华共同创立的机器人公司在合作伙伴大会上,花了大量的时间和篇幅介绍软件上的新产品。相较之下,硬件的篇幅反倒很少。