AI资讯新闻榜单内容搜索-RL

LIBERO 99%，实测第一：卧安 OneModel 1.7用一条隐式通路打通「看懂」到「做对」

2026 年，世界动作模型（WAM）在具身智能领域逐渐成为一个集中讨论的方向，英伟达等公司也陆续在这一领域投入资源。

来自主题: AI技术研报

10668 点击 2026-05-22 09:27

让大模型学会「自己教自己」！京东&中科院信工所连发三篇论文定义Self-Taught RLVR

最近，京东和中科院信工所展开了Self-Taught RLVR的系列研究，并连发三篇后训练新作。

来自主题: AI技术研报

7333 点击 2026-05-19 14:59

断崖第一！深度机智Z-WM再夺WorldArena冠军

2026 年 5 月，深度机智（DeepCybo）迎来成立一周年。

来自主题: AI资讯

9991 点击 2026-05-18 16:50

「世界模型」究竟是什么？一文看懂其前世今生与百亿赌局

世界模型（World Model），想必你已经在很多场合听过这个术语了。它有时出现在视频生成领域，有时又出现在具身智能领域；它们的含义还有所差别，甚至看起来像是完全不同的概念。

来自主题: AI技术研报

7308 点击 2026-05-18 16:48

「具身大一统」不是口号：北京人形再度登顶WorldArena，拿下双冠王

最近，全球的网民都化身「监工」，围观了 Figure AI 的人形机器人直播在物流传送带上连续几十个小时，不间断地分拣包裹。

来自主题: AI技术研报

9174 点击 2026-05-18 10:24

当SFT遇上RL：基于样本学习阶段的动态策略优化机制

过去一段时间里，在围绕大模型推理能力增强的研究中，SFT 和 RL 是两类核心后训练范式 —— 前者稳定收敛快，能高效吸收高质量推理数据；后者更具探索性，有望推动模型实现复杂推理和分布外泛化。

来自主题: AI技术研报

7342 点击 2026-05-18 09:53

解决视频生成穿帮问题！浙大&微软3000条纯文本让模型理解3D

浙大联合微软亚洲研究院最新提出的World-R1，不改架构、不要3D数据，纯靠强化学习就让视频生成模型学会了“理解”三维世界。World-R1 的出发点很简单：预训练的视频模型里面已经有 3D 知识了，只是“沉睡”着。用强化学习把它叫醒就行。

来自主题: AI技术研报

8990 点击 2026-05-16 13:34

160行代码读懂LeCun的JEPA世界模型

LeCun念叨了好几年的JEPA，被160行代码给复刻了。GitHub上有个开发者，用极简单文件形式，用PyTorch把JEPA核心系列全部实现了一遍，从I-JEPA到LeWorldModel，五个变体一个没落，就为了——

来自主题: AI资讯

9081 点击 2026-05-15 13:33

ACL 2026｜打破推理同质化！阿里达摩院新作让RLVR从重复采样走向有效探索

I²B-LPO 是一个面向 RLVR 后训练的探索增强框架，通过改进 rollout 策略引导模型生成更多样化的推理轨迹，将探索行为从 “重复采样” 推进到 “在关键节点生成更具区分度的推理轨迹”，在多个数学基准上同时提升准确率与语义多样性，最高分别达 5.3% 和 7.4%。该工作接收于 ACL 2026 Main，来自阿里达摩院 - 智能决策团队。

来自主题: AI技术研报

9750 点击 2026-05-14 14:24

名师一定出高徒？清华团队最新揭秘：别再迷信大模型蒸馏的「免费午餐」

当下的大模型后训练（Post-training）pipeline 中，On-Policy Distillation（OPD）已经成为了明星技术。从 Qwen3、MiMo 到 GLM-5，业界纷纷采用 OPD 并报告了巨大的性能提升。相比于强化学习（RL）稀疏的结果奖励，OPD 提供了密集的 Token 级别监督信号，看起来就像是一顿「免费的午餐」。

来自主题: AI技术研报

10371 点击 2026-05-14 09:59