AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

首次证实RL能让3D模型学会推理,复杂文本描述下生成质量跃升!

当GRPO让大模型在数学、代码推理上实现质变,研究团队率先给出答案——首个将强化学习系统性引入文本到3D自回归生成的研究正式诞生,并被CVPR 2026接收。该研究不只是简单移植2D经验,而是针对3D生成的独特挑战,从奖励设计、算法选择、评测基准到训练范式,做了一套完整的系统性探索。

来自主题: AI技术研报
7672 点击    2026-02-27 10:28
清华数学系大神跳槽OpenAI!曾主导SAM与Llama开发,Sora负责人:欢迎加入

清华数学系大神跳槽OpenAI!曾主导SAM与Llama开发,Sora负责人:欢迎加入

清华数学系大神跳槽OpenAI!曾主导SAM与Llama开发,Sora负责人:欢迎加入

刚刚,毕业清华大学数学系,曾在Meta FAIR工作3.75年、主导过SAM与Llama多项核心工作的研究员张鹏川(Pengchuan Zhang)宣布离职。他的下一站,是来到OpenAI,投身于世界模拟与机器人学(World Simulation and Robotics)方向的研究。

来自主题: AI资讯
10218 点击    2026-02-25 14:57
ICLR 2026 | 数据缺少标注,RL还能稳定诱导模型推理吗?Co-rewarding提供自监督RL学习方案!

ICLR 2026 | 数据缺少标注,RL还能稳定诱导模型推理吗?Co-rewarding提供自监督RL学习方案!

ICLR 2026 | 数据缺少标注,RL还能稳定诱导模型推理吗?Co-rewarding提供自监督RL学习方案!

针对这一挑战,来自香港浸会大学和上海交通大学的可信机器学习和推理组提出了一个全新的自监督 RL 框架 ——Co-rewarding。该框架通过在数据端或模型端引入互补视角的自监督信号,稳定奖励获取,提升 RL 过程中模型奖励投机的难度,从而有效避免 RL 训练崩溃,实现稳定训练和模型推理能力的诱导。

来自主题: AI技术研报
8317 点击    2026-02-24 15:16
10亿美金!李飞飞惊爆硅谷:英伟达AMD入局,3D空间革命开战

10亿美金!李飞飞惊爆硅谷:英伟达AMD入局,3D空间革命开战

10亿美金!李飞飞惊爆硅谷:英伟达AMD入局,3D空间革命开战

一次拿下10亿美金,惊爆硅谷!就在刚刚,李飞飞「明星初创」World Labs官宣:成功斩获高达10亿美元的全新一轮融资。此轮融资,投资人阵容堪称豪华——

来自主题: AI资讯
10028 点击    2026-02-20 13:54
训练加速40倍、打破“不可能三角”:MiniMax Agent RL 架构解密

训练加速40倍、打破“不可能三角”:MiniMax Agent RL 架构解密

训练加速40倍、打破“不可能三角”:MiniMax Agent RL 架构解密

随着 MiniMax M2.5 的发布并在社区引发热烈反响,很高兴能借此机会,分享在模型训练背后关于 Agent RL 系统的一些思考。 在大规模、复杂的真实世界场景中跑 RL 时,始终面临一个核心难

来自主题: AI技术研报
8170 点击    2026-02-15 06:50
ICLR 2026 | 异常需要定义!中传团队提出开放世界视频异常检测新范式

ICLR 2026 | 异常需要定义!中传团队提出开放世界视频异常检测新范式

ICLR 2026 | 异常需要定义!中传团队提出开放世界视频异常检测新范式

针对这一问题,中国传媒大学媒体融合与传播国家重点实验室的吴晓雨教授团队于 ICLR 2026 发表论文《Language-guided Open-world Video Anomaly Detection under Weak Supervision》,直面 VAD 领域的核心问题 —— 什么是异常?

来自主题: AI技术研报
8388 点击    2026-02-14 10:03
真机RL杀疯了!机器人自学20分钟100分,数字孪生封神

真机RL杀疯了!机器人自学20分钟100分,数字孪生封神

真机RL杀疯了!机器人自学20分钟100分,数字孪生封神

TwinRL用手机扫一遍场景构建数字孪生,让机器人先在数字孪生里大胆探索、精准试错,再回到真机20分钟跑满全桌面100%成功率——比现有方法快30%,人类干预减少一半以上。

来自主题: AI技术研报
9374 点击    2026-02-13 11:07
训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

训练加速1.8倍,推理开销降78%!精准筛选题目高效加速RL训练丨清华KDD

以DeepSeek R1为代表的一系列基于强化学习(RLVR)微调的工作,显著提升了大语言模型的推理能力。但在这股浪潮背后,强化微调的代价却高得惊人。

来自主题: AI技术研报
9670 点击    2026-02-10 14:19
全新视角看世界模型:从视频生成迈向通用世界模拟器

全新视角看世界模型:从视频生成迈向通用世界模拟器

全新视角看世界模型:从视频生成迈向通用世界模拟器

近年来,视频生成(Video Generation)与世界模型(World Models)已跃升为人工智能领域最炙手可热的焦点。从 Sora 到可灵(Kling),视频生成模型在运动连续性、物体交互与部分物理先验上逐渐表现出更强的「世界一致性」,让人们开始认真讨论:能否把视频生成从「逼真短片」推进到可用于推理、规划与控制的「通用世界模拟器」。

来自主题: AI技术研报
9726 点击    2026-02-09 14:36