AI资讯新闻榜单内容搜索-数学推理

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 数学推理
ICML 2026 | 清华姚权铭团队提出LMNet,让语言模型学会自己「组网」

ICML 2026 | 清华姚权铭团队提出LMNet,让语言模型学会自己「组网」

ICML 2026 | 清华姚权铭团队提出LMNet,让语言模型学会自己「组网」

大语言模型正在成为人工智能系统的核心组件。从文本生成、数学推理到代码编写,单个大模型已经展现出强大的能力。

来自主题: AI技术研报
7793 点击    2026-06-01 09:26
LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!

来自主题: AI技术研报
5938 点击    2026-04-23 14:05
ICLR 2026|UIUC:一行代码彻底解决LLM推理的过度思考!

ICLR 2026|UIUC:一行代码彻底解决LLM推理的过度思考!

ICLR 2026|UIUC:一行代码彻底解决LLM推理的过度思考!

2025 年 1 月 20 日,DeepSeek 发布了推理大模型 DeepSeek-R1,在学术界和工业界引发了对大模型强化学习方法的广泛关注与研究热潮。 研究者发现,在数学推理等具有明确答案的任务

来自主题: AI技术研报
7109 点击    2026-02-08 11:52
强化学习远不是最优,CMU刚刚提出最大似然强化学习

强化学习远不是最优,CMU刚刚提出最大似然强化学习

强化学习远不是最优,CMU刚刚提出最大似然强化学习

在大模型时代,从代码生成到数学推理,再到自主规划的 Agent 系统,强化学习几乎成了「最后一公里」的标准配置。

来自主题: AI技术研报
7644 点击    2026-02-06 10:34
非Transformer架构的新突破,Liquid AI开源LFM2.5-1.2B-Thinking模型

非Transformer架构的新突破,Liquid AI开源LFM2.5-1.2B-Thinking模型

非Transformer架构的新突破,Liquid AI开源LFM2.5-1.2B-Thinking模型

就在刚刚,Liquid AI 又一次在 LFM 模型上放大招。他们正式发布并开源了 LFM2.5-1.2B-Thinking,一款可完全在端侧运行的推理模型。Liquid AI 声称,该模型专门为简洁推理而训练;在生成最终答案前,会先生成内部思考轨迹;在端侧级别的低延迟条件下,实现系统化的问题求解;在工具使用、数学推理和指令遵循方面表现尤为出色。

来自主题: AI资讯
12365 点击    2026-01-22 11:59
DeepSeek强势回归,开源IMO金牌级数学模型

DeepSeek强势回归,开源IMO金牌级数学模型

DeepSeek强势回归,开源IMO金牌级数学模型

就在刚刚,DeepSeek 又悄咪咪在 Hugging Face 上传了一个新模型:DeepSeek-Math-V2。顾名思义,这是一个数学方面的模型。它的上一个版本 ——DeepSeek-Math-7b 还是一年多以前发的。当时,这个模型只用 7B 参数量,就达到了 GPT-4 和 Gemini-Ultra 性能相当的水平。相关论文还首次引入了 GRPO,显著提升了数学推理能力。

来自主题: AI资讯
9601 点击    2025-11-27 22:47
清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

清华团队:1.5B 模型新基线!用「最笨」的 RL 配方达到顶尖性能

如果有人告诉你:不用分阶段做强化学习、不搞课程学习、不动态调参,只用最基础的 RL 配方就能达到小模型数学推理能力 SOTA,你信吗?

来自主题: AI技术研报
7146 点击    2025-11-13 09:37
港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」

港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」

港科提出新算法革新大模型推理范式:随机策略估值竟成LLM数学推理「神操作」

论文第一作者何浩然是香港科技大学博士生,研究方向包括强化学习和基础模型等,研究目标是通过经验和奖励激发超级智能。共同第一作者叶语霄是香港科技大学一年级博士。通讯作者为香港科技大学电子及计算机工程系、计

来自主题: AI技术研报
9117 点击    2025-11-01 09:24