“Claude Code更新废了”!热议Issue:思考深度下降67%,已无法胜任复杂的工程任务
“Claude Code更新废了”!热议Issue:思考深度下降67%,已无法胜任复杂的工程任务在官方仓库贴脸开大,热议Issue指出:Claude Code已经更新“废了”。某次更新让思考深度下降67%,当前版本已无法胜任复杂工程任务。“无视用户指令”“执行与用户要求完全相反的操作”“假装说任务已完成”……模型行为全面走样。
在官方仓库贴脸开大,热议Issue指出:Claude Code已经更新“废了”。某次更新让思考深度下降67%,当前版本已无法胜任复杂工程任务。“无视用户指令”“执行与用户要求完全相反的操作”“假装说任务已完成”……模型行为全面走样。
Meta SOAR用「剧毒数据」当垫脚石,硬生生把模型从Fail@128的认知黑洞里拽出来,推理能力暴涨9.3%!2026年,这才是最硬核的反杀路线。
OpenAI和Anthropic的上市竞速,是硅谷最受关注的一场IPO竞赛。
如果把手机屏幕想象成一个舞台,GUI 智能体就是台下那个 “被授权动手” 的人:它能看懂屏幕上的按钮、输入框和弹窗,能按你的指令去点、去滑、去输入。
研究者用特制雨伞干扰无人机视觉系统,让其误判目标在远去,从而失控俯冲。FlyTrap攻击无需信号干扰,仅靠物理图案就能欺骗多款商用无人机,实现静默捕获或击毁。实验显示,物理闭环攻击成功率超60%,且对新人物、新场景均有强泛化能力。这项研究揭示了AI感知系统的重大安全隐患,警示我们:视觉安全正成为智能设备的阿喀琉斯之踵。
一家叫 Rallies Arena 的团队,6 个月前干了一件事:给 6 个主流大模型各发了 10 万美元,让它们在真实股票市场上自己做研究、自己下单、自己管仓位。
就在大家都急头白脸地等待DeepSeek-V4的时候,冷不丁一篇新论文引起了网友们的注意—— 提出新稀疏注意力机制HISA(分层索引稀疏注意力),突破64K上下文的索引瓶颈,相比DeepSeek正在用的DSA(DeepSeek Sparse Attention)提速2-4倍。
生成式模型当检索器大材小用效果还不好?
通过一晚上的睡眠,AI 模型就能监控最多 130 种疾病。
OpenAI Codex 团队的产品规格文档只有 10 个要点。不是说每个功能的文档只有 10 个要点,而是整个产品的 spec 就这么多。设计师写的代码量超过了六个月前工程师写的。50 到 100 人的团队,直到最近才有了第二个产品经理。