新一代记忆智能体框架MIA：让智能体告别「失忆式工作」，在持续进化中变强

9711点击 2026-04-20 14:02

Never memorize something that you can look up.

— Albert Einstein

如今的大多数智能体，仍然活在一种「失忆式工作」模式中：每一次检索都是从零开始，每一条推理路径都无法沉淀，每一次失败也不会转化为经验。它们虽能多轮交互，但很难在深度研究中持续变强。

为了解决这个问题，已有工作尝试基于历史方案生成执行规划，但受限于预训练范式，许多智能体仍陷入新的困境：一个不擅长规划的「决策器」，从臃肿的记忆中检索出零散片段，再去驱动一个缺乏规划执行能力的「执行器」。结果是：记忆在增长，智能却没有。

于是，浮现出一个关键问题：是否存在将经验转化为能力的智能体记忆机制？

上海创智学院和华东师范大学联合团队最近提出的 Memory Intelligence Agent (MIA)，一个面向深度研究场景的新一代记忆智能体框架，给这一问题带来了新的答案。

新一代记忆智能体框架MIA：让智能体告别「失忆式工作」，在持续进化中变强

论文地址：https://arxiv.org/abs/2604.04503
代码仓库：https://github.com/ECNU-SII/MIA
龙虾技能：
纯净版：https://clawhub.ai/jingyangqiao/mia
可信版：https://clawhub.ai/sii-yucheng2002/mia-trust

（高效版和可训练版即将发布）

为了解决这一问题，MIA 构建了一套基于「Planner–Executor–Manager」架构的记忆系统。其中，Planner 是战术大脑，不仅能够针对当前问题制定研究计划，还能通过测试时的持续学习实时调整其策略。Executor 是经过训练的执行专家，能够毫无阻碍地解读并遵循复杂的研究蓝图。Manager 是终极管理员，优化记忆存储以消除冗余。

与现有方法相比，MIA 的核心亮点在于：

构建双记忆机制，非参数记忆负责沉淀经验，参数记忆负责吸收能力，二者相互转化，形成持续进化的闭环；
提出 Manager–Planner–Executor 多智能体结构，将记忆管理、策略规划与任务执行解耦，并通过交替强化学习驱动 Planner 与 Executor 的协同进化，将「会规划」和「会执行」对齐；
引入面向开放世界的自进化机制，结合反思与无监督学习，让智能体在开放世界的推理过程中持续修正策略、动态更新记忆，实现边做边学的在线进化。

在 X 平台上，该论文已被 DAIR.AI 的创始人，拥有 30 万粉丝的 AI 论文分享博主 Elvis Saravia 所转发，并收获了高度评价与大量关注。与此同时，该论文也入选了 Hugging Face Daily Papers 榜单。

新一代记忆智能体框架MIA：让智能体告别「失忆式工作」，在持续进化中变强

从「逐次推理」到「可积累的研究闭环」

新一代记忆智能体框架MIA：让智能体告别「失忆式工作」，在持续进化中变强

作为一个持续运行的 Planning–Execution–Memory 闭环系统，MIA 在每一次研究任务中，都会经历：经验调用 → 协同推理 → 经验沉淀，并不断反哺后续决策。

在经验调用中，MIA 通过三维检索机制调用历史经验，分别是保证相关性的语义相似度，高质量经验偏好的价值奖励和激活长尾知识的频率奖励。

此外，作者还引入失败轨迹作为约束，使记忆既能提供参考，又能避免重复错误。在协同推理中，MIA 将推理解耦为两个智能体的协作过程，Planner 负责拆解任务、生成步骤，而 Executor 负责按照步骤执行。二者通过 Reflect–Replan 形成反馈闭环，当执行受阻时自动重规划，让智能体具备持续试错与调整能力。

在经验沉淀中，MIA 将对两种记忆同时更新。首先对轨迹进行压缩与提取，形成结构化非参数记忆。其次在线更新 Planner 参数，将经验转化为参数记忆。最后实现从经验存储到能力内化的跃迁。

新一代记忆智能体框架MIA：让智能体告别「失忆式工作」，在持续进化中变强

让「会规划」和「会执行」学会配合

在传统记忆系统中，Planner 和 Executor 往往只是拼在一起，并没有真正学会协作。为此，MIA 提出了一套两阶段交替强化学习和测试时持续学习的进化机制，让两个模块逐步对齐，并在真实任务中不断变强。首先在两阶段交替强化学习中，MIA 将训练过程拆分为：

阶段一：固定 Planner，让 Executor 学会理解并严格执行规划；
阶段二：固定 Executor，让 Planner 学习如何利用记忆生成更优计划与计划执行失败时的反思与重规划能力。

这种「先对齐执行，再优化决策」的方式，解决了「规划很好，但执行跟不上」的问题。

其次不同于传统方法「训练完即冻结」，MIA 在推理阶段引入测试时学习，赋能智能体持续进化。其过程包括：执行推理任务同时生成多条候选路径。从成功与失败路径中提取非参数化记忆，基于成功路径在线更新参数化记忆。推理与训练几乎同步完成，形成真正的在线学习闭环。

新一代记忆智能体框架MIA：让智能体告别「失忆式工作」，在持续进化中变强

让智能体在开放世界中稳定进化

为了将 MIA 能够真正用在开放环境的深度研究中，作者提出了一套无监督的自进化评估机制，让智能体在没有外部反馈的条件下，也能持续优化自身能力。

其核心思路是：用「过程质量」替代「结果标签」，只要推理严谨、证据可靠、结论合理，即使没有标准答案，也可以作为有效学习信号。

因此，受学术评审的启发，作者将对结果的判断拆成多个「专家视角」，包括：

逻辑评审员：检查推理链条是否自洽
事实评审员：验证信息来源以及是否存在幻觉
结果评审员：评估任务是否真正完成

最终由一个「领域主席」进行综合决策并给出整体判断，为 MIA 提供稳定的优化信号，进而助力实时进化。

实验结论

在多项文本与多模态深度研究任务中，MIA 显著提升了智能体的稳定性与效率：

新一代记忆智能体框架MIA：让智能体告别「失忆式工作」，在持续进化中变强

SOTA 性能再突破 (a & b)：在 LiveVQA (多模态在线搜索) 与 HotpotQA (纯文本沙盒搜索) 的对比实验中，MIA 显著提升了现有最先进 LLMs（GPT-5.4, Gemini-3-Flash, claude-sonnet-4.6）在调用搜索工具下的表现；
实现小尺寸模型的跨级超越 (c)：基于 Qwen-2.5-VL-7B 执行器的 MIA 模型在 7 个核心数据集上表现卓越，超越了在不调用工具下的 GPT-5.4，GPT-4o 和 Gemini-2.5-Pro，逼近了 Gemini-3-Flash；
记忆方法的新标杆 (d)：在与当前先进智能体记忆方法的横向评测中，MIA 在 7 个数据集上均取得最佳性能表现。

总结

智能体记忆不应该只是让智能体记住了「结果是什么」，而是应该让它学会「该怎么做」。MIA 的出现，传递了一个清晰的信号：决定一个智能体上限的，不再仅仅是它接入了多少外部工具，而是它能否在每一次与世界的交互中，将繁杂的「过程信息」压缩为精炼的「执行本能」。

文章来自于"机器之心"，作者 "乔静阳、孟炜程"。

关键词: AI新闻 , 模型训练 , Memory Intelligence Agent , MIA

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/