Anthropic万字长文:当AI开始构建自己,人类该何去何从?
Anthropic万字长文:当AI开始构建自己,人类该何去何从?今天这篇内容可能会比较特殊,是一篇Anthropic凌晨发的全新文章。 名字叫《When AI builds itself》。 翻译过来叫,《当人工智能开始自我构建》。 他们甚至还为这篇文章,配了一个超级精美的、非常能体现Agent自我构建这个理念的动画,由此可见Anthropic对这篇内容的重视程度可见一斑。
搜索
今天这篇内容可能会比较特殊,是一篇Anthropic凌晨发的全新文章。 名字叫《When AI builds itself》。 翻译过来叫,《当人工智能开始自我构建》。 他们甚至还为这篇文章,配了一个超级精美的、非常能体现Agent自我构建这个理念的动画,由此可见Anthropic对这篇内容的重视程度可见一斑。
DeepSeek 研究员陈德里(Deli Chen)和 AI 合作的第二篇论文来了!论文地址:https://victorchen96.github.io/continual_learning_survey.pdf这篇论文聚焦 continual learning(持续学习) 与 self-iteration(自我迭代)。在陈德里看来,这是 AI 迈向 AGI 过程中极为关键的一步。
刚刚 Anthropic 又给他们的官方 Managed Agents 加了俩功能:自托管沙箱 self-hosted sandboxes 和 MCP 隧道 MCP tunnels
最近,京东和中科院信工所展开了Self-Taught RLVR的系列研究,并连发三篇后训练新作。
阿里巴巴 Z-Image 团队联合香港科技大学、加州大学圣地亚哥分校、香港中文大学等机构提出 D-OPSD(On-Policy Self-Distillation),首个针对少步扩散模型的在线策略自蒸馏框架。D-OPSD 无需奖励模型、无需成对偏好数据,
何恺明,也下场做语言模型了。
近年来,大模型能力提升的焦点正在从「训练时扩展」转向「推理时扩展」。从 Best-of-N、Self-Consistency 到更复杂的搜索与验证框架,Test-Time Scaling 已经成为提升大模型复杂推理能力的重要范式。
AI 很快就能自己改造自己了?Anthropic 联合创始人 Jack Clark 发帖称,他最近几周阅读了大量公开的 AI 开发数据后,认为到 2028 年底,递归自我改进(recursive self-improvement)发生的概率有 60%。
近日,腾讯混元团队提出HY-SOAR (Self-Correction for Optimal Alignment and Refinement),一种面向扩散模型和流匹配模型的数据驱动后训练方法。
在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!