AI资讯新闻榜单内容搜索-R1

GUI智能体训练迎来新范式！半在线强化学习让7B模型媲美GPT-4o

浙江大学与通义实验室Mobile-Agent团队在UI-R1的基础上，推出全新研究成果——UI-S1，提出了一种名为半在线强化学习（Semi-online Reinforcement Learning）的创新训练范式。

来自主题: AI技术研报

8724 点击 2025-09-24 09:49

浙江大学联合华为发布国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型

2025年9月18日，由浙江大学计算机科学与技术学院院长、区块链与数据安全全国重点实验室常务副主任任奎教授团队联合华为技术有限公司计算产品线共同研发的国内首个基于昇腾千卡算力平台的DeepSeek-R1-Safe基础大模型在“华为全联接大会2025”正式发布。

来自主题: AI技术研报

9148 点击 2025-09-20 13:05

中国大模型首登Nature封面！DeepSeek首次披露：R1训练只花了200万

就在最新的Nature新刊中，DeepSeek一举成为首家登上《Nature》封面的中国大模型公司，创始人梁文锋担任通讯作者。纵观全球，之前也只有极少数如DeepMind者，凭借AlphaGo、AlphaFold有过类似荣誉。

来自主题: AI资讯

10658 点击 2025-09-18 16:35

腾讯AI Lab首创RL框架Parallel-R1，教大模型学会「并行思维」

自从 Google Gemini 将数学奥赛的成功部分归功于「并行思维」后，如何让大模型掌握这种并行探索多种推理路径的能力，成为了学界关注的焦点。

来自主题: AI技术研报

9271 点击 2025-09-18 15:04

让机器人「不只是走路」，Nav-R1引领带推理的导航新时代

这篇题为《Nav-R1: Reasoning and Navigation in Embodied Scenes》的新论文，提出了一个新的「身体体现式（embodied）基础模型」（foundation model），旨在让机器人或智能体在 3D 环境中能够更好地结合「感知 + 推理 + 行动」。简单说，它不仅「看到 + 听到＋开动马达」，还加入清晰的中间「思考」环节。

来自主题: AI技术研报

7199 点击 2025-09-18 14:28

刚刚，DeepSeek登上Nature封面！梁文锋带队回应质疑，R1训练真29.4万美金

DeepSeek荣登Nature封面，实至名归！今年1月，梁文锋带队R1新作，开创了AI推理新范式——纯粹RL就能激发LLM无限推理能力。Nature还特发一篇评论文章，对其大加赞赏。

来自主题: AI资讯

10109 点击 2025-09-18 13:49

Meta开源MobileLLM-R1模型，不到1B参数，用1/10的训练就超越了Qwen3

本周五，Meta AI 团队正式发布了 MobileLLM-R1。这是 MobileLLM 的全新高效推理模型系列，包含两类模型：基础模型 MobileLLM-R1-140M-base、MobileLLM-R1-360M-base、MobileLLM-R1-950M-base 和它们相应的最终模型版。

来自主题: AI技术研报

9788 点击 2025-09-14 11:16