AI资讯新闻榜单内容搜索-R1

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: R1

第一性原理视角下的MoE推理的经济学分析

第一性原理视角下的MoE推理的经济学分析

第一性原理视角下的MoE推理的经济学分析

随着DeepSeek R1、Kimi K2和DeepSeek V3.1混合专家（MoE）模型的相继发布，它们已成为智能前沿领域大语言模型（LLM）的领先架构。由于其庞大的规模（1万亿参数及以上）和稀疏计算模式（每个token仅激活部分参数而非整个模型），MoE式LLM对推理工作负载提出了重大挑战，显著改变了底层的推理经济学。

来自主题: AI技术研报

9333 点击 2025-09-03 11:22

刚刚，DeepSeek最新发文，V3/R1训练细节全公开，信息量巨大

刚刚，DeepSeek最新发文，V3/R1训练细节全公开，信息量巨大

刚刚，DeepSeek最新发文，V3/R1训练细节全公开，信息量巨大

不止贴「AI生成」标签

来自主题: AI资讯

8704 点击 2025-09-02 11:36

蚂蚁专用模型超越o3！仅用2K训练样本刷新医疗AI榜单纪录

蚂蚁专用模型超越o3！仅用2K训练样本刷新医疗AI榜单纪录

蚂蚁专用模型超越o3！仅用2K训练样本刷新医疗AI榜单纪录

不卷参数的专业模型，会不会被通用大模型取代？在医疗领域，这个疑问正在被打破。

来自主题: AI资讯

8686 点击 2025-08-29 15:56

We-Math 2.0：全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0：全新多模态数学推理数据集 × 首个综合数学知识体系

We-Math 2.0：全新多模态数学推理数据集 × 首个综合数学知识体系

近期，多模态大模型在图像问答与视觉理解等任务中进展迅速。随着 Vision-R1 、MM-Eureka 等工作将强化学习引入多模态推理，数学推理也得到了一定提升。

来自主题: AI技术研报

10185 点击 2025-08-28 12:20

刚刚，大模型棋王诞生！40轮血战，OpenAI o3豪夺第一，人类大师地位不保？

刚刚，大模型棋王诞生！40轮血战，OpenAI o3豪夺第一，人类大师地位不保？

刚刚，大模型棋王诞生！40轮血战，OpenAI o3豪夺第一，人类大师地位不保？

继Kaggle Game Arena的淘汰赛后，国际象棋积分赛成果出炉！OpenAI o3以人类等效Elo 1685分傲视群雄，而Grok 4和Gemini 2.5 Pro紧随其后。DeepSeek R1和GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五。

来自主题: AI资讯

8833 点击 2025-08-23 13:17

DeepSeek-V3.1震撼发布，全球开源编程登顶！R1/V3首度合体，训练量暴增10倍

DeepSeek-V3.1震撼发布，全球开源编程登顶！R1/V3首度合体，训练量暴增10倍

DeepSeek-V3.1震撼发布，全球开源编程登顶！R1/V3首度合体，训练量暴增10倍

DeepSeek-V3.1官宣了，作为首款「混合推理」模型，将开启智能体新时代。新模型共有671B参数，编码实力碾压DeepSeek-R1、Claude 4 Opus，登顶编程开源第一。

来自主题: AI资讯

9683 点击 2025-08-22 11:52

AI版华尔街之狼！o3-mini靠「神之押注」狂赚9倍，DeepSeek R1最特立独行

AI版华尔街之狼！o3-mini靠「神之押注」狂赚9倍，DeepSeek R1最特立独行

AI版华尔街之狼！o3-mini靠「神之押注」狂赚9倍，DeepSeek R1最特立独行

AI能像科幻电影中的先知一样预测未来吗？一个名为「Prophet Arena」的全新基准测试，正通过预测真实世界事件来评估AI的「预言」能力。

来自主题: AI资讯

8927 点击 2025-08-18 19:05

混合数学编程逻辑数据，一次性提升AI多领域强化学习能力 | 上海AI Lab

混合数学编程逻辑数据，一次性提升AI多领域强化学习能力 | 上海AI Lab

混合数学编程逻辑数据，一次性提升AI多领域强化学习能力 | 上海AI Lab

近年来，AI大模型在数学计算、逻辑推理和代码生成领域的推理能力取得了显著突破。特别是DeepSeek-R1等先进模型的出现，可验证强化学习（RLVR）技术展现出强大的性能提升潜力。

来自主题: AI技术研报

8686 点击 2025-08-16 16:45

冗长响应缩减80%，DeepSeek GRPO获得颠覆性改进，微软GFPO问世

冗长响应缩减80%，DeepSeek GRPO获得颠覆性改进，微软GFPO问世

冗长响应缩减80%，DeepSeek GRPO获得颠覆性改进，微软GFPO问世

用过 DeepSeek-R1 等推理模型的人，大概都遇到过这种情况：一个稍微棘手的问题，模型像陷入沉思一样长篇大论地推下去，耗时耗算力，结果却未必靠谱。现在，我们或许有了解决方案。

来自主题: AI技术研报

7884 点击 2025-08-15 11:26

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

研究者警告：强化学习暗藏「策略悬崖」危机，AI对齐的根本性挑战浮现

强化学习（RL）是锻造当今顶尖大模型（如 OpenAI o 系列、DeepSeek-R1、Gemini 2.5、Grok 4、GPT-5）推理能力与对齐的核心 “武器”，但它也像一把双刃剑，常常导致模型行为脆弱、风格突变，甚至出现 “欺骗性对齐”、“失控” 等危险倾向。

来自主题: AI技术研报

9421 点击 2025-08-13 16:29

上一页当前第8页,共41页下一页