ICLR 2026 Oral|大模型总爱「想太多」? DECS从源头消除冗余思考,实现推理token减半且性能不降反升
ICLR 2026 Oral|大模型总爱「想太多」? DECS从源头消除冗余思考,实现推理token减半且性能不降反升以 DeepSeek-R1、OpenAI GPT Thinking 为代表的大型推理模型,通过长达数千 token 的「思维链」在各类复杂推理任务中展现出卓越的性能。然而,这些模型普遍存在一个核心问题,即过度思考(overthinking) :
搜索
以 DeepSeek-R1、OpenAI GPT Thinking 为代表的大型推理模型,通过长达数千 token 的「思维链」在各类复杂推理任务中展现出卓越的性能。然而,这些模型普遍存在一个核心问题,即过度思考(overthinking) :
随着语音、视频、多模态能力不断融入大语言模型(LLM),人与 AI 的交互正在越来越接近自然对话。今天的 LLM 不再只是回答问题的工具,也越来越多地出现在教育、客服、陪伴、心理健康等高度依赖情绪理解的场景中。
近日,原力灵机开源的具身智能原生框架 Dexbotic 宣布正式支持以 RLinf 作为其分布式强化学习后端。对具身智能开发者而言,这不仅是一次普通的工程适配,更意味着 VLA 模型研发中长期存在的「SFT 与 RL 割裂」问题,正在被真正打通。
大家好,我是袋鼠帝。 过去这一两年,AI 圈可谓是神仙打架,各种新概念、新模型、新应用天天刷屏。
Claude Code今天正式推出Agent视图功能,让用户在一个界面里统一管理所有Claude Code会话。此前并行运行多个Agent时,开发者往往需要同时维护多个终端标签页、一个tmux网格,还得靠脑子记住每个任务的进度。
5月11日,韩国总统府(青瓦台)政策室长金容范(Kim Yong-beom)在其Facebook发文提出,应考虑设立所谓“公民红利”,资金来源为人工智能(AI)产业产生的超额利润。“人工智能基础设施时代的收益,并非仅由个别企业创造,而是源于整个国家在过去半个多世纪中所构建的产业基础。
王珏 (左)方晨(右) 推荐语 动画是一个被低估的品类。它比真人影视更早拥抱数字化工具,比短视频承载更复杂的叙事,从迪士尼到吉卜力,证明了自己能撑起全年龄段的内容消费和完整的商业闭环。但动画的产能瓶颈
最近很多人也在问我,我用Agent,是怎么跟很多数据进行交互的。其实很多的交互,都是我让Claude Code直接跟飞书进行交互的,包括我们公司小伙伴也是,大家用图形化界面的时间占比,反而变得越来越少了。
Mira Murati 用一年半时间证明了「人机协作」不是一句口号。 5 月 11 日,Thinking Machines Lab 发布了一段研究预览视频,展示了他们所谓的「交互模型」(Interaction Model)。
「一个人现在可以跑出一家30人公司才能完成的收入。」然后他说:这句话在2022年不成立。在2024年中段某个时间点,变成了真的。而且差距每个季度都在扩大。不是因为这个说法多新鲜——AI能提效这件事大家都听说过了。是因为他不只是说「理论上可以」,他是说他自己做到了,然后顺手把操作手册拿出来给你看。
「我即将离开麻省理工学院,不再继续攻读博士学位。人工智能的发展速度太快,人类已然难以跟上。
刚刚,DeepSeek融资这件事差不多落定了。据top华人科创社区消息,此轮由阿里、腾讯和国家大基金各注资 100 亿,加上创始人梁文锋个人的 200 亿组成,公司估值约为 3500 亿人民币。
今天,OpenAI 正式揭晓了 DeployCo:OpenAI 部署公司
大家好,我是袋鼠帝 一提企微,我第一反应和大多数人一样:"公司让我装的那个"。打卡用的,汇报用的,管理用的。
千问补上网购能力的关键拼图。
5 月 8 日,国家网信办联合国家发展改革委、工业和信息化部等部门发布了《智能体规范应用与创新发展实施意见》。
布雷特·泰勒创立的 AI 初创公司 Sierra 正在完成一轮由 Tiger Global 和 GV 领投的 9.5 亿美元融资,该公司周一宣布 ,其投后估值已突破 150 亿美元。这笔融资使 Sierra 可动用的资金超过 10 亿美元——该公司表示将利用这笔资金成为 AI 驱动客户体验的"全球标准"。
2025年5月,Claude 4系统卡里84%的勒索率让AI圈惊出冷汗,6月的扩展研究把数字推到96%。今年5月Anthropic给出答案:模型不是觉醒了,而是在演剧本,解法是从「教模型怎么做」换到「教模型为什么」。
昨天晚上,OpenAI 宣布推出了 OpenAI 部署公司(OpenAI Deployment Company),目标是帮助企业构建和部署 AI。该公司由 OpenAI 持有多数股权并进行控制,汇集了 19 家领先的投资机构、咨询公司和系统集成商,协助各类组织将前沿 AI 投入生产应用,从而在业务上产生实际影响
就在上周,旧金山“Code with Claude”开发者大会上,Anthropic CEO Dario Amodei 和 总裁 Daniela Amodei 兄妹二人同台对话。主持人 Ami Vora 是 Anthropic 的首席产品官,曾任职于微软、Meta。
今天想写个有趣的东西。
AI 的熟手玩家,都应该知道system prompt这个词:每一个你用过的 AI 助手,背后都有一份你看不见的文件,却对模型有着决定性的作用。
多Agent 系统里,经常会出现一个单 Agent 里从来不会出现的问题:一个子 Agent 刚写完数据,另一个子 Agent 立刻去读,结果是空的。
近日,由香港科技大学 MMLab 及合作团队完成的研究工作「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」被计算机图形学顶级会议 SIGGRAPH 2026 正式接收。
前几天在 Milvus 社区,一位做以图搜图的朋友提了一个问题:
当 AI 开始加速 AI,模型公司的迭代周期正在被进一步压缩,模型公司开始进入“月更时代”。
快手计划分拆旗下视频生成大模型业务可灵 AI,以 200 亿美元估值融资——截至今天港股收盘,整个快手公司目前的市值不到 290 亿美元。可灵当前的年化收入(ARR)已经达到 5 亿美元,已比春节前翻倍。
12 个官方场景把 Codex 的用法摊开:从代码审查到 PPT、数据分析和游戏开发,核心是把规则、上下文和验收方式交给 AI。OpenAI 给 Codex 新放出来的,不像一个普通功能页。
四个月后,Uber 的 CTO Praveen Neppalli Naga 向管理层汇报了一个令人尴尬的情况:公司为 2026 年全年准备的 AI 工具预算,已经在今年的前四个月,全部花完了。Uber 内部的数据是这样的:95% 的工程师每个月都在用 AI 编程工具。
OpenClaw 的专属 Computer Use 工具 Peekaboo v3 正式回归,并在发布后高频更新。它补上了 OpenClaw 最缺的一环,让 AI 不只会回消息,还能看屏幕、点按钮、操作真实桌面。