AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
世界引擎:Post-Training开启Physical AGI新纪元

世界引擎:Post-Training开启Physical AGI新纪元

世界引擎:Post-Training开启Physical AGI新纪元

一年前,DeepSeek R1 横空出世,人们才意识到,真正让模型产生推理能力质变的,不必是更大的预训练规模 —— 后训练,用强化学习、过程奖励、闭环反馈,以极低的代价解锁了原本需要数倍算力才能触达的能力边界。

来自主题: AI技术研报
6173 点击    2026-04-20 09:00
教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决

教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决

教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决

今天,来自ZJU-REAL的团队带来了ClawGUI,一个覆盖GUI智能体在线RL训练、标准化评测、真机部署完整生命周期的开源框架。不是三个独立工具的简单拼接,而是一条打通的流水线:用ClawGUI-RL训练,用ClawGUI-Eval评测,用OpenClaw-GUI部署,端到端验证。

来自主题: AI技术研报
7575 点击    2026-04-19 13:33
训练提速4.6倍!FP4+BF16双轨并行,NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

训练提速4.6倍!FP4+BF16双轨并行,NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

训练提速4.6倍!FP4+BF16双轨并行,NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

当强化学习后训练的大规模 rollout 已经被证明能够提升图像生成模型的偏好对齐能力,推理负担就成了制约训练速度的核心瓶颈。来自 NVIDIA、港大和 MIT 的团队提出的 Sol-RL,通过「FP4 先探索、BF16 再训练」的后训练框架,将达到等效 reward 水平的收敛速度最高提升到 4.64x,在训练速度与对齐效果之间给出了一条更具工程可行性的解法。

来自主题: AI技术研报
8713 点击    2026-04-16 16:07
刚刚,腾讯最新世界模型开源!一句话造出3D世界,兼容游戏引擎

刚刚,腾讯最新世界模型开源!一句话造出3D世界,兼容游戏引擎

刚刚,腾讯最新世界模型开源!一句话造出3D世界,兼容游戏引擎

今日,腾讯正式发布并开源混元3D世界模型2.0(HY-World 2.0)。作为一款多模态的世界模型,HY-World 2.0支持文字、图片和视频等形式输入,可自动生成、重建并模拟完整的3D世界。

来自主题: AI资讯
8547 点击    2026-04-16 11:14
刚刚,李飞飞世界模型新成果发布

刚刚,李飞飞世界模型新成果发布

刚刚,李飞飞世界模型新成果发布

距离新模型Marble 1.1&1.1-Plus发布不到一个周,李飞飞空间智能独角兽World Labs再度传来新消息—— 开源3D高斯溅射渲染引擎Spark 2.0。

来自主题: AI技术研报
9204 点击    2026-04-15 10:10
目标更重要?国内公司超越Generalist,进化到动作中心世界模型

目标更重要?国内公司超越Generalist,进化到动作中心世界模型

目标更重要?国内公司超越Generalist,进化到动作中心世界模型

最近,具身智能圈被 Generalist CEO 的一篇长文《Going Beyond World Models & VLAs》刷屏。文章抛出了一个看似振聋发聩的观点:目标远比工具标签更重要。与其陷入 “我们到底是在做 VLA(视觉 - 语言 - 动作模型)还是世界模型(World Model)” 的教条之争,不如回归本源:让机器高效、准确地作用于物理世界。

来自主题: AI技术研报
10014 点击    2026-04-15 09:45
吞吐提升76%!小红书开源RL训练引擎Relax

吞吐提升76%!小红书开源RL训练引擎Relax

吞吐提升76%!小红书开源RL训练引擎Relax

小红书AI平台团队刚刚开源了Relax——一个为全模态数据、Agentic工作流和大规模异步训练协同设计的现代RL训练引擎!实测全异步Off-Policy模式相比共卡On-Policy吞吐提升76%,相比veRL的全异步实现提升20%!

来自主题: AI技术研报
5978 点击    2026-04-15 09:23