AI资讯新闻榜单内容搜索-RL

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: RL
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能

一个月前,我们曾报道过清华姚班校友、普林斯顿教授陈丹琦似乎加入 Thinking Machines Lab 的消息。有些爆料认为她在休假一年后,会离开普林斯顿,全职加入 Thinking Machines Lab。

来自主题: AI技术研报
8030 点击    2025-09-28 16:46
“AI科学家”登顶Nature:MIT团队开发多模态AI平台,全程无人干预90天即发现高效电催化剂

“AI科学家”登顶Nature:MIT团队开发多模态AI平台,全程无人干预90天即发现高效电催化剂

“AI科学家”登顶Nature:MIT团队开发多模态AI平台,全程无人干预90天即发现高效电催化剂

近日,为了加速多元素催化剂的发现与优化,美国麻省理工学院团队开发了一个多模态机器人平台——CRESt(Copilot for Real-world Experimental Scientists)。该平台能够结合自动化设备、大规模模型和实验室监测,在实验设计中融入人类经验、文献知识和显微结构信息,从而加速多元素催化剂的发现和优化加速发展。

来自主题: AI资讯
9956 点击    2025-09-27 20:35
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等。

来自主题: AI技术研报
8729 点击    2025-09-27 11:13
首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

开源框架实现100%可复现的稳定RL训练!下图是基于Qwen3-8B进行的重复实验。两次运行,一条曲线,实现了结果的完美重合,为需要高精度复现的实验场景提供了可靠保障。这就是SGLang团队联合slime团队的最新开源成果。

来自主题: AI技术研报
7671 点击    2025-09-27 10:19
LeCun团队开源首个代码世界模型:能生成代码还能自测自修!传统编程模型一夜成古典

LeCun团队开源首个代码世界模型:能生成代码还能自测自修!传统编程模型一夜成古典

LeCun团队开源首个代码世界模型:能生成代码还能自测自修!传统编程模型一夜成古典

刚刚,Meta FAIR推出了代码世界模型!CWM(Code World Model),一个参数量为32B、上下文大小达131k token的密集语言模型,专为代码生成和推理打造的研究模型。这是全球首个将世界模型系统性引入代码生成的语言模型。

来自主题: AI资讯
10212 点击    2025-09-25 11:20
无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」

无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」

无需训练,即插即用:西湖大学发布世界模型WorldForge,让普通视频模型秒变「世界引擎」

自 Sora 亮相以来,AI 视频的真实感突飞猛进,但可控性仍是瓶颈:模型像才华横溢却随性的摄影师,难以精准执行 “导演指令”。我们能否让 AI 做到: 仅凭一张静态照片,就能 “脑补” 出整个 3D

来自主题: AI技术研报
7462 点击    2025-09-24 09:56
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。

来自主题: AI技术研报
8253 点击    2025-09-23 14:59
突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

为了回答这一问题,来自牛津大学、Meta 超级智能实验室等机构的研究者提出设想:推理计算是否可以替代缺失的监督?本文认为答案是肯定的,他们提出了一种名为 CaT(Compute as Teacher)的方法,核心思想是把推理时的额外计算当作教师信号,在缺乏人工标注或可验证答案时,也能为大模型提供监督信号。

来自主题: AI技术研报
6128 点击    2025-09-23 10:09
工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」

工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」

工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」

构建一个工业级高仿真 3D 虚拟世界,需要投入多少时间与人力?如果仅需一段描述、一张草图,AI 便可快速自动生成 —— 你相信吗?

来自主题: AI技术研报
7796 点击    2025-09-22 10:06
无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

近来,由AI生成的视频片段以前所未有的视觉冲击力席卷了整个互联网,视频生成模型创造出了许多令人惊叹的、几乎与现实无异的动态画面。

来自主题: AI技术研报
7515 点击    2025-09-22 09:21