AI资讯新闻榜单内容搜索-R1

GRPO遭遇瓶颈？G²RPO-A让自适应指导为小模型推理能力「开外挂」

大模型时代的「炼金术师」们，或许都曾面临一个共同的困扰：当我们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理能力迁移到小规模语言模型（SLMs）时，效果却总是差强人意。现有的强化学习方法如 GRPO 在 7B+ 的大模型上效果显著，但一旦应用到 1.7B 甚至更小参数的模型上，性能提升就微乎其微。

来自主题: AI技术研报

8848 点击 2026-05-07 10:16

2.69万！宇树最便宜人形机器人来了，王兴兴化身价格屠夫，这下我真买得起了

刚刚，宇树发布其迄今定价最低的人形机器人——R1系列双臂人形机器人，支持工业及日常家用多元场景应用，售价2.69万元起。这是宇树首款主打桌面、面向工业场景的低成本轻量化上半身双臂方案。该系列机器人支持5/7自由度单臂、固定/移动底盘，头部模组算力达10TOPS，末端可快速换装，手臂最大负载2kg，腰部±150°、头部±115°/±36°大运动范围。

来自主题: AI资讯

9459 点击 2026-04-30 13:54

上海，跑出一家百亿独角兽-苏度科技！

成立不到一年，跻身“百亿估值俱乐部”。

来自主题: AI资讯

14007 点击 2026-04-23 15:15

世界引擎：Post-Training开启Physical AGI新纪元

一年前，DeepSeek R1 横空出世，人们才意识到，真正让模型产生推理能力质变的，不必是更大的预训练规模 —— 后训练，用强化学习、过程奖励、闭环反馈，以极低的代价解锁了原本需要数倍算力才能触达的能力边界。

来自主题: AI技术研报

6885 点击 2026-04-20 09:00

Claude最强模型没那么神话，DeepSeek R1也能找到「大 bug」

上周 Anthropic 发布 Mythos Preview 的时候，安全圈的反应可以用一个词概括：震惊。

来自主题: AI资讯

10215 点击 2026-04-16 11:17

DeepSeek核心研究员郭达雅，曝入职字节

刚刚，图灵联合创始人刘江在海外社交媒体X上透露，DeepSeek核心研究院——郭达雅已加入字节跳动。郭达雅2023年博士毕业后加入DeepSeek，title是AI Researcher。公开论文显示，从 DeepSeek-Coder、DeepSeek-Math、DeepSeek-Prover、DeepSeek-V3到 DeepSeek-R1，他都出现在核心作者名单中。

来自主题: AI资讯

8963 点击 2026-04-16 08:00

4步生图封神，GenEval从61%狂拉到92%，全面超越GPT-4o的TDM-R1模型来了

超快速 AI 生图领域再破性能天花板！香港科技大学唐靖团队、香港科技大学（深圳分校）胡天阳、小红书 hi-lab 罗维俭提出全新通用强化学习框架 TDM-R1，精准破解超快速扩散生成的核心痛点 —— 仅需 4 步采样（4 NFE），便将组合式生成指标 GenEval 从 61% 飙升至 92%，

来自主题: AI技术研报

10427 点击 2026-04-10 08:35

大厂抢郭达雅进行时！DeepSeek核心成员还是个“综艺巨佬”

DeepSeek，又有核心工程师流入江湖—— 郭达雅，V2、V3、R1等一系列模型的核心作者，被曝离职。

来自主题: AI资讯

6666 点击 2026-03-23 10:21

ICLR 2026 | Shop-R1: 给AI补上「内心戏」，在RL博弈中复刻人类网购脑

传统的 AI 购物助手更像是一个任务完成机器：接到指令，搜索，下单。他们或许能跑通流程，却完全无法理解用户为何在最后一刻因为一条关于 “夹耳朵” 的差评而放弃支付。简而言之，传统的电商 Agent 只是任务导向的（task-oriented），而不是模拟导向的（simulation-oriented）。为此，来自亚马逊（Amazon）的研究团队提出了名为 Shop-R1 的训练框架。

来自主题: AI技术研报

7856 点击 2026-03-21 09:28

独家丨爱诗融资 3 亿美元，中国视频生成最大单笔融资诞生

爱诗科技近期完成了 3 亿美元 C 轮融资，由鼎晖投资领投，超过 20 家机构参与，包括中国儒意、三七互娱等文娱行业产业方，亦庄国投、苏创投等地方国资，和 UOB Venture Management、 Lion X 基金等海外机构。

来自主题: AI资讯

8673 点击 2026-03-13 00:34