AI资讯新闻榜单内容搜索-强化学习

4步生图封神，GenEval从61%狂拉到92%，全面超越GPT-4o的TDM-R1模型来了

超快速 AI 生图领域再破性能天花板！香港科技大学唐靖团队、香港科技大学（深圳分校）胡天阳、小红书 hi-lab 罗维俭提出全新通用强化学习框架 TDM-R1，精准破解超快速扩散生成的核心痛点 —— 仅需 4 步采样（4 NFE），便将组合式生成指标 GenEval 从 61% 飙升至 92%，

来自主题: AI技术研报

10035 点击 2026-04-10 08:35

重构跨域RL框架！理论驱动「双重对齐」让跨域迁移「质变」

在现实世界中通过强化学习训练智能体，往往需要大量在线试错与环境探索，这不仅成本高昂，还可能带来显著安全风险：机器人可能因试错而损坏，自动驾驶的在线探索可能危及行车安全，而持续采集交互数据本身也代价巨大。

来自主题: AI技术研报

8475 点击 2026-04-03 09:25

ICLR 2026 | 让多模态模型学会主动说话：主动交互从训练到评估的完整方案

本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文，介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复，而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark，MMDuet2 则通过强化学习训练方法实现了 SOTA 性能，无需精确的回复时间标注即可训练出及时、准确的主动交互模型。

来自主题: AI技术研报

8764 点击 2026-03-30 15:02

打破代码大模型训练瓶颈：微软&剑桥&普林推出MicroCoder，算法、数据、框架、训练经验全面升级

新一代代码模型的训练动态已与旧模型截然不同，主流强化学习方法和数据集在其上几乎“失效”。

来自主题: AI技术研报

10305 点击 2026-03-30 09:29

打破具身世界模型可执行性鸿沟！港中深-跨维智能团队提出EVA框架，用强化学习让视频世界模型真正“动”起来

近期，利用视频生成模型为机器人构建 “世界模型”，已成为具身智能领域的热门技术路线。给定当前观测和自然语言指令，这类模型能够先 “想象” 出未来的视觉轨迹，再由逆动力学模型（IDM）将生成画面解码为机器人动作，从而形成 “先预测、后执行” 的解耦式规划范式。由于兼具较强的可解释性与开放场景泛化潜力，这一路线正在受到学术界和工业界的广泛关注。

来自主题: AI技术研报

8784 点击 2026-03-28 09:50

Cursor滑跪开源技术报告：Kimi基模这样微调能干翻Claude

Cursor套壳Kimi这事还没完…… 最新消息，Cursor放出Composer 2技术报告，力证自己还是有在“自研”。（doge）不是纯套，而是有技术地套、循序渐进地套。用的方法，还是他们一开始就强调的预训练+强化学习。

来自主题: AI资讯

8284 点击 2026-03-27 00:32

用SFT打出RL的效果？微软联合提出高效后训练算法

在大模型后训练阶段，监督微调（SFT）和强化学习（RL）是两根不可或缺的支柱。SFT 利用高质量的离线（Off-policy）数据快速注入知识，但受限于静态数据分布，泛化能力往往容易触及天花板并带来灾难性遗忘；RL 则允许模型在探索中不断自我迭代，产生与当前策略同分布（On-policy）的数据，上限极高，但往往伴随着训练极度不稳定、计算资源消耗巨大的痛点。

来自主题: AI技术研报

5771 点击 2026-03-26 10:47

Cursor 被质疑套壳 Kimi，马斯克下场补刀，Kimi：听说我，谢谢你

3 月 20 日，知名 AI 代码编辑器 Cursor 高调发布了所谓的编程模型 Composer 2，结果被网友质疑「套壳」 Kimi K2.5。而从官方口径来看， Composer 2 的性能简直是降维打击：全基准大幅领先前代，首次引入持续预训练，叠加大规模强化学习，能解决需要数百个操作的高难度编程任务。

来自主题: AI资讯

9494 点击 2026-03-21 11:43

LaPha：你的Agent轨迹其实嵌入在一个Poincaré球？

在经典强化学习问题中，动作空间通常是离散且有限的。例如在围棋中，一步棋就是一次行动；在机器人控制或视觉 - 语言 - 行动（VLA）模型中，动作往往来自一个有限的控制指令集合。

来自主题: AI技术研报

6229 点击 2026-03-18 14:54

在「想象」中练就真机能力：RISE，让VLA强化学习告别真机试错

在具身智能的发展路径中，视觉 - 语言 - 动作（VLA）模型正逐步成为通用操作任务的核心框架。但当任务进入长程规划、柔性物体操作、精细双臂协同、动态交互等复杂场景时，VLA 仍然面临两个根本性挑战：

来自主题: AI技术研报

5805 点击 2026-03-18 14:05

AI资讯新闻榜单内容搜索-强化学习

4步生图封神，GenEval从61%狂拉到92%，全面超越GPT-4o的TDM-R1模型来了

重构跨域RL框架！理论驱动「双重对齐」让跨域迁移「质变」

ICLR 2026 | 让多模态模型学会主动说话：主动交互从训练到评估的完整方案

打破代码大模型训练瓶颈：微软&剑桥&普林推出MicroCoder，算法、数据、框架、训练经验全面升级

打破具身世界模型可执行性鸿沟 ！港中深-跨维智能团队提出EVA框架，用强化学习让视频世界模型真正“动”起来

Cursor滑跪开源技术报告：Kimi基模这样微调能干翻Claude

用SFT打出RL的效果？微软联合提出高效后训练算法

Cursor 被质疑套壳 Kimi，马斯克下场补刀，Kimi：听说我，谢谢你

LaPha：你的Agent轨迹其实嵌入在一个Poincaré球？

在「想象」中练就真机能力：RISE，让VLA强化学习告别真机试错

打破具身世界模型可执行性鸿沟！港中深-跨维智能团队提出EVA框架，用强化学习让视频世界模型真正“动”起来