AI资讯新闻榜单内容搜索-RL

上海AI Lab新研究：SFT能泛化，只要满足这三个条件

随着大模型后训练（Post-training）技术的发展，强化学习（RL）在提升模型推理能力方面的表现备受瞩目。

来自主题: AI技术研报

9550 点击 2026-05-13 09:59

一个框架，重塑具身研发流程：Dexbotic走向具身PyTorch

近日，原力灵机开源的具身智能原生框架 Dexbotic 宣布正式支持以 RLinf 作为其分布式强化学习后端。对具身智能开发者而言，这不仅是一次普通的工程适配，更意味着 VLA 模型研发中长期存在的「SFT 与 RL 割裂」问题，正在被真正打通。

来自主题: AI技术研报

9319 点击 2026-05-12 14:30

业界首个视觉世界模型综述：迈向更高智能的视觉范式

为了理清视觉与世界模型之间的深层联系，并为该领域的未来研究提供一张清晰的脉络图，北京交通大学靳潇杰、魏云超、赵耀等学者联合新加坡国立大学、腾讯、字节等国内外研究机构知名学者，发布了首篇视觉世界模型长篇综述：From Seeing to Knowing the World: A Survey of Vision World Models。

来自主题: AI技术研报

8276 点击 2026-05-10 10:40

离谱，特朗普家族下场卖AI API中转站！

太魔幻了，特朗普开始做API中转站了，还有七折的 Claude 可以用。甚至还有机会参加懂王的私人派对。前两天还在跟朋友感慨，连孙雨晨都低调下场搞中转站了，AI API 这门生意是真的下沉到水深火热了。

来自主题: AI资讯

9744 点击 2026-05-07 10:57

难绷...懂王做了中转站，提供稳定的 Claude，还踏马七折

懂王开始做 API 中转站了，还七折的 Claude 的 API。买多了，还抽送懂王的私人晚宴名额！项目叫 WorldClaw，可以理解为 OpenRouter 的懂王版，在这里，需要用懂王的加密货币 WLFI 结算，聚合了 300 多个 AI 模型，声称比官方定价低 30%

来自主题: AI资讯

9524 点击 2026-05-06 19:57

阿里开源PromptEcho：用冻结多模态大模型为文生图训练提供高质量Reward

用强化学习（RL）优化文生图模型的 prompt following 能力，是一条被广泛验证的路径 —— 让模型根据 prompt 用不同随机种子生成多张图片，通过 reward model 计算 reward，再利用相关 RL 算法优化模型。

来自主题: AI技术研报

7626 点击 2026-05-06 14:27

Agent-World：扩展真实世界环境，让智能体与环境协同进化！

随着MCP、Agent Skills与各类Harness的快速发展，大模型能轻松调用成百上千种外部工具，但在多工具，具备复杂状态、长程交互的任务上仍有明显短板。尽管一系列环境扩展方法尝试复刻真实世界的交互环境（如订票系统，外卖平台），但仍受限于环境扩展的规模与真实性。

来自主题: AI技术研报

6801 点击 2026-05-06 09:06

一句话造世界！开发者用10天婚假爆肝，让AI小镇真正「活」了过来

2023年斯坦福「AI小镇」火了，后续也诞生了大量类似的热门项目，但所有这类项目都有一个共同瓶颈——世界是人工搭建的，固定的。最近，一位独立开发者用10天婚假爆肝了一个项目WorldX：输入一句话、5分钟，一个完整的AI世界就诞生了——地图、角色、动画、人设全部自动生成，AI角色们自主在其中生活、对话、形成记忆、产生戏剧性的涌现行为。

来自主题: AI资讯

9558 点击 2026-05-01 13:35

老黄秘密武器曝光：AI一夜设计芯片，顶人类顶级工程师10个月！

8人团队干10个月，AI只需一夜！英伟达祭出「造芯」神技：芯片设计效率狂飙百倍，非人类直觉的设计方案惊呆工程师。硅基生命开始自进化，人类正退居二线？进来看黄仁勋的秘密武器。

来自主题: AI资讯

8117 点击 2026-05-01 11:08

Claude 嘴上说不要中国，背地里把中文做得飞起

我发现：Claude 一边把中国大陆挡在门外，一边在认认真真做简体中文。事情是这样—— 前两天我把 Claude 文档 URL 里的 /en/ 改成了 /zh-CN/。页面唰地就变了。整站简体中文，翻译贼讲究。

来自主题: AI资讯

10374 点击 2026-05-01 10:58