AI资讯新闻榜单内容搜索-RL

腾讯混元最新世界模型开源！支持实时生成交互，突破长期空间记忆

可支持24帧/秒的长时流式生成。

来自主题: AI技术研报

9707 点击 2025-12-18 10:48

大模型的进化方向：Words to Worlds | 对话商汤林达华

李飞飞团队最新的空间智能模型Cambrian-S，首次被一个国产开源AI超越了。

来自主题: AI技术研报

7736 点击 2025-12-18 09:15

RL是「点金石」还是「挖掘机」？CMU 用可控实验给出答案

近期，强化学习（RL）技术在提升语言模型的推理能力方面取得了显著成效。

来自主题: AI技术研报

7191 点击 2025-12-16 16:26

RL是「点金石」还是「挖掘机」？CMU 用可控实验给出答案

近期，强化学习（RL）技术在提升语言模型的推理能力方面取得了显著成效。

来自主题: AI技术研报

9559 点击 2025-12-16 09:17

全球强化学习+VLA范式，PI*0.6背后都有这家中国公司技术伏笔

在 Physical Intelligence 最新的成果 π0.6 论文里，他们介绍了 π0.6 迭代式强化学习的思路来源：

来自主题: AI技术研报

9713 点击 2025-12-15 09:58

美国视频生成老炮儿，入局世界模型

世界模型赛道，又有老面孔新鲜入局！就在刚刚，Runway发布旗下首个通用世界模型GWM-1。不止于此，还打包发布了一系列世界模型变体：模拟真实环境的GWM Worlds；

来自主题: AI资讯

8925 点击 2025-12-13 15:55

苹果光速撤回RLAX论文：用了谷歌TPU和阿里Qwen，作者中还有庞若鸣

昨天，苹果一篇新论文在 arXiv 上公开然后又匆匆撤稿。原因不明。论文中，苹果揭示了他们开发的一个基于 TPU 的可扩展 RL 框架 RLAX。是的，你没有看错，不是 GPU，也不是苹果自家的 M 系列芯片，而是谷歌的 TPU！还不止如此，这篇论文的研究中还用到了亚马逊的云和中国的 Qwen 模型。

来自主题: AI技术研报

9033 点击 2025-12-13 11:08

Runway深夜炸场：一口气发布5大更新，首个通用世界模型来了

主攻 AI 视频与多媒体生成技术的独角兽 Runway 也来了一波大的：一口气来了 5 个「激动人心的宣布」。这一波更新之猛，甚至让人觉得他们是不是把过去半年的大招一次性全放了出来。Runway 这一波发布，不仅刷新了视频生成的各项指标，更重要的是，他们正式对外展示了其在通用世界模型（General World Models/GWM）上的野心。

来自主题: AI资讯

10341 点击 2025-12-12 16:19

Z Potentials｜26岁连续创业者陈锴杰：Scale Agentic RL开启模型下半场，但决胜点在于产品Taste

提起马卡龙，你会想到什么？是橱窗里的精致甜点，一种“少女心”的味觉象征？还是代表了温柔优雅的时尚配色？当一个AI产品也被命名为“马卡龙”，这份联想便悄然发生了偏移：从舌尖的甜，转向科技的未知，却又奇妙地保留了那一份色彩与气质。

来自主题: AI资讯

11297 点击 2025-12-11 15:34

只用512张H200！106B模型靠分布式RL杀出重围，全网开源

最近，Prime Intellect正式发布了INTELLECT-3。这是一款拥有106B参数的混合专家（Mixture-of-Experts）模型，基于Prime Intellect的强化学习（RL）技术栈训练。在数学、代码、科学与推理的各类基准测试上，它达成了同规模中最强的成绩，甚至超越了不少更大的前沿模型。

来自主题: AI资讯

9833 点击 2025-12-10 16:14