AI资讯新闻榜单内容搜索-RL

ICLR2026 Oral | 北大彭一杰团队提出高效优化新范式，递归似然比梯度优化器赋能扩散模型后训练

在 AI 视觉生成领域，扩散模型（DM）凭借其强大的高保真数据生成能力，已成为图像合成、视频生成等多模态任务的核心框架。然而，预训练后的扩散模型如何高效适配下游应用需求，一直是行业面临的关键挑战。

来自主题: AI技术研报

8302 点击 2026-03-10 09:30

CVPR 2026 | AI寒武纪时刻？字节世界模型新作，仅靠视觉学习真实世界知识

视觉世界模型 “VideoWorld 2” 由豆包大模型团队与北京交通大学联合提出。不同于 Sora 2 、Veo 3、Wan 2.2 等主流多模态模型，VideoWorld 系列工作在业界首次实现无需依赖语言模型，即可认知世界。

来自主题: AI技术研报

6478 点击 2026-03-09 14:29

李飞飞50亿美金赛道被开源！浙大教授章国锋带队创业，打造无限时长实时3D世界模型

在 50 亿美元估值神话的背后，这一空间智能的最新高地正被国内创业公司攻克并推向产业纵深。近日，影溯（InSpatio）正式发布并开源了其实时帧生成模型 InSpatio-WorldFM，一个实时交互的 3D 世界模型。这标志着中国团队在空间智能底层技术上取得了奠基性突破，而且以开放的姿态，正成为推动 AI 从虚拟屏幕走向物理现实的关键破局者。

来自主题: AI资讯

10712 点击 2026-03-06 15:40

OpenAI点赞转发的冠军项目，背后藏着一个国人3D生成团队

机器之心编辑部近日，一款名为 StoryWorld 的 iOS 产品 Demo 在海外开发者与 3D 创作者社区引发关注：用户只需用手机摄像头对准真实空间，通过语音输入描述，即可生成 3D 角色与物

来自主题: AI资讯

10193 点击 2026-03-06 11:35

又走一个！OpenAI研究VP离职，转投Anthropic做RL研究员

OpenAI的人才地震还在继续！刚刚，前研究副总裁Max Schwarzer宣布离职，这位亲手主导o1、o3和整个GPT-5系列post-training的核心人物，选择加入Anthropic，重返一线RL研究。

来自主题: AI资讯

9617 点击 2026-03-05 14:57

ICLR 2026｜在「想象」中进化的机器人：港科大×字节跳动Seed提出WMPO，在世界模型中进行VLA强化学习

香港科技大学 PEI-Lab 与字节跳动 Seed 团队近期提出的 WMPO（World Model-based Policy Optimization），正是这样一种让具身智能在 “想象中训练” 的新范式。该方法无需在真实机器人上进行大规模强化学习交互，却能显著提升策略性能，甚至涌现出自我纠错（Self-correction）行为。

来自主题: AI技术研报

9500 点击 2026-03-02 14:31

GPT之父Alec Radford新作：给大模型做「脑部手术」，危险知识重学成本暴增7000倍

近日， Anthropic 和斯坦福研究者 Neil Rathi 与这位传奇研究者联合发布了一篇新论文，并得到了一些相当惊人的新发现。在这项研究中，他们挑战了当前大模型安全领域的一个核心假设。长期以来，业界普遍认为要在模型发布后通过 RLHF 或微调来限制其危险行为。但 Neil Rathi 和 Alec Radford 提出了一种更本质的解法：

来自主题: AI技术研报

9827 点击 2026-03-02 10:12

首次证实RL能让3D模型学会推理，复杂文本描述下生成质量跃升！

当GRPO让大模型在数学、代码推理上实现质变，研究团队率先给出答案——首个将强化学习系统性引入文本到3D自回归生成的研究正式诞生，并被CVPR 2026接收。该研究不只是简单移植2D经验，而是针对3D生成的独特挑战，从奖励设计、算法选择、评测基准到训练范式，做了一套完整的系统性探索。

来自主题: AI技术研报

8217 点击 2026-02-27 10:28

清华数学系大神跳槽OpenAI！曾主导SAM与Llama开发，Sora负责人：欢迎加入

刚刚，毕业清华大学数学系，曾在Meta FAIR工作3.75年、主导过SAM与Llama多项核心工作的研究员张鹏川（Pengchuan Zhang）宣布离职。他的下一站，是来到OpenAI，投身于世界模拟与机器人学（World Simulation and Robotics）方向的研究。

来自主题: AI资讯

10848 点击 2026-02-25 14:57

AI资讯新闻榜单内容搜索-RL

ICLR2026 Oral | 北大彭一杰团队提出高效优化新范式，递归似然比梯度优化器赋能扩散模型后训练

CVPR 2026 | AI寒武纪时刻？字节世界模型新作，仅靠视觉学习真实世界知识

李飞飞50亿美金赛道被开源！浙大教授章国锋带队创业，打造无限时长实时3D世界模型

OpenAI点赞转发的冠军项目，背后藏着一个国人3D生成团队

又走一个！OpenAI研究VP离职，转投Anthropic做RL研究员

推荐系统进入「双动力」时代！首篇LLM-RL协同推荐综述深度解析

ICLR 2026｜在「想象」中进化的机器人：港科大×字节跳动Seed提出WMPO，在世界模型中进行VLA强化学习

GPT之父Alec Radford新作：给大模型做「脑部手术」，危险知识重学成本暴增7000倍

首次证实RL能让3D模型学会推理，复杂文本描述下生成质量跃升！

清华数学系大神跳槽OpenAI！曾主导SAM与Llama开发，Sora负责人：欢迎加入