AI资讯新闻榜单内容搜索-推理模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 推理模型
华人团队领衔!OpenAI深夜祭出「首个生命科学大模型」GPT-Rosalind,碾压95%人类专家!

华人团队领衔!OpenAI深夜祭出「首个生命科学大模型」GPT-Rosalind,碾压95%人类专家!

华人团队领衔!OpenAI深夜祭出「首个生命科学大模型」GPT-Rosalind,碾压95%人类专家!

就在今天,OpenAI正式宣布推出GPT-Rosalind,一款专为生物学和药物研发打造的垂直领域推理模型!它旨在加速从基础生物学、药物发现到转化医学的整个研究流程,解决新药研发周期长、流程复杂等核心痛点。

来自主题: AI资讯
9082 点击    2026-04-17 13:09
多模态幻觉的病因「高熵节点」找到了!全基准幻觉率下降

多模态幻觉的病因「高熵节点」找到了!全基准幻觉率下降

多模态幻觉的病因「高熵节点」找到了!全基准幻觉率下降

多模态大推理模型的幻觉,很多时候并非「没看见」,而是在最不确定的推理阶段想偏了。最新研究发现,模型在生成because、however、wait等transition words时,往往处于高熵关键节点,更容易脱离图像证据、转向语言脑补。LEAD在高熵阶段不急于输出单一离散token,而是先在潜在语义空间保留多种候选推理方向,并通过视觉锚点持续拉回图像证据,显著缓解幻觉。

来自主题: AI技术研报
9106 点击    2026-04-11 09:37
生成式推理再排序,可能会是LLM4RecSys的新突破口吗?

生成式推理再排序,可能会是LLM4RecSys的新突破口吗?

生成式推理再排序,可能会是LLM4RecSys的新突破口吗?

大模型(LLM)的世界知识和推理能力是实现下一代推荐系统,即基于大模型的推荐系统(LLM4Recsys)的重要基石。来自meta ai的研究者们尝试将推理模型引入再排序阶段,推荐系统的最后一环。

来自主题: AI技术研报
10125 点击    2026-04-09 09:46
"将注意力旋转90°":深入浅出解读 Kimi 最新出圈成果

"将注意力旋转90°":深入浅出解读 Kimi 最新出圈成果

"将注意力旋转90°":深入浅出解读 Kimi 最新出圈成果

前几天,一篇来自Kimi的论文「ATTENTION RESIDUALS」在 AI 圈引发了激烈讨论——马斯克罕见地发出评价:"Impressive work from Kimi"。同时,两位前Openai大佬也同样发出了高度评价,OpenAI 「推理模型之父」Jerry Tworek表示“深度学习2.0时代即将到来”。

来自主题: AI技术研报
8545 点击    2026-03-27 14:16
谷歌最新发表的Science论文,颠覆了人类对ASI的想象

谷歌最新发表的Science论文,颠覆了人类对ASI的想象

谷歌最新发表的Science论文,颠覆了人类对ASI的想象

Science 最新论文颠覆「技术奇点」叙事:真正的智能爆炸已在发生,但它不是孤独超级大脑的降临,而是人与 AI 深度缠绕的社会性跃迁。推理模型内部自发涌现出「思想社会」,人机混合的「半人马时代」已然开启。问题从不是奇点会不会到来,而是我们能否建起与之匹配的社会基础设施。

来自主题: AI资讯
6924 点击    2026-03-23 14:11
复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论

复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论

复旦北大联合美团LongCat提出TDAR:用“粗思考,细求证”破解Block Diffusion的速度精度悖论

近期,复旦大学 NLP 实验室(FDU NLP)、北京大学知识计算实验室(KCL)联合美团 LongCat Team 提出了一种 Block Diffusion 推理模型 Test-Time Scaling 新框架 TDAR,通过引入 “粗思考,细求证” (Think Coarse Critic Fine, TCCF) 范式与有界自适应置信度解码

来自主题: AI技术研报
7363 点击    2026-03-14 08:39
OpenAI测谎13款大模型:Claude 3.7封神,GPT-5.2近乎失控!

OpenAI测谎13款大模型:Claude 3.7封神,GPT-5.2近乎失控!

OpenAI测谎13款大模型:Claude 3.7封神,GPT-5.2近乎失控!

OpenAI的最新研究揭示了一个反直觉的真相:越强大的推理模型,越管不住自己的「脑子」。在CoT-Control套件测试的13款前沿模型中,DeepSeek R1控制自身思维链的成功率仅为0.1%,Claude Sonnet 4.5也只有2.7%。

来自主题: AI资讯
9149 点击    2026-03-09 15:08
憋了4个月,阿里最大最强模型Qwen3-Max-Thinking正式版发布!附一手实测

憋了4个月,阿里最大最强模型Qwen3-Max-Thinking正式版发布!附一手实测

憋了4个月,阿里最大最强模型Qwen3-Max-Thinking正式版发布!附一手实测

阿里巴巴推出了Qwen3-Max-Thinking,这是阿里千问系列目前能力最强的旗舰级推理模型,在19项权威基准测试中,Qwen3-Max-Thinking跟GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等顶尖模型打得有来有回,搭配测试时扩展(TTS)能力后,能在不少基准测试上达到SOTA。

来自主题: AI资讯
10217 点击    2026-01-27 11:21
DeepSeek-R1推理智能从哪儿来?谷歌新研究:模型内心多个角色吵翻了

DeepSeek-R1推理智能从哪儿来?谷歌新研究:模型内心多个角色吵翻了

DeepSeek-R1推理智能从哪儿来?谷歌新研究:模型内心多个角色吵翻了

过去两年,大模型的推理能力出现了一次明显的跃迁。在数学、逻辑、多步规划等复杂任务上,推理模型如 OpenAI 的 o 系列、DeepSeek-R1、QwQ-32B,开始稳定拉开与传统指令微调模型的差距。直观来看,它们似乎只是思考得更久了:更长的 Chain-of-Thought、更高的 test-time compute,成为最常被引用的解释。

来自主题: AI技术研报
6690 点击    2026-01-26 15:02
三星爆火递归模型TRM唯一作者被迫离职,内部不认可?

三星爆火递归模型TRM唯一作者被迫离职,内部不认可?

三星爆火递归模型TRM唯一作者被迫离职,内部不认可?

还记得三个月前,来自三星的一位研究员的独作论文发布即爆火,颠覆了递归推理模型架构,让一个仅包含 700 万个参数的网络,性能比肩甚至超越 o3-mini 和 Gemini 2.5 Pro 等尖端语言模型,震惊了大量业内研究人士。

来自主题: AI资讯
8413 点击    2026-01-25 12:01