1. 年度背景
如果你在2025年1月问AI工程师构建AI智能体最大的挑战是什么,他们可能会说"推理"或"幻觉"。如果12月问同样的问题,答案越来越多地变成了"记忆"。这种转变——从将记忆视为事后想法到认识其为基础设施——定义了刚过去的这一年。
数据讲述了一个令人信服的故事。2024年arXiv上约有40篇标题包含"AI记忆"或"LLM记忆"的论文。2025年这一数字超过180篇——增长4.5倍。更重要的是,论文性质发生了变化。2024年的论文主要是探索性的,2025年的论文越来越以工程为导向。
商业格局的变化更加剧烈。2025年初,记忆只是一个功能复选框。到年底,记忆已成为一个基础设施类别,拥有专门的公司、开源框架和标准化基准测试。AI记忆基础设施市场预计到2028年将达24亿美元。
在这篇年度回顾中,我们追溯了定义2025年为AI记忆成为基础设施之年的关键事件、论文、产品和里程碑。
2. 第一季度:奠基论文
这一年始于一系列为后续发展奠定理论基础的学术论文。1月,UC Berkeley的MemoryVLA论文引入了记忆增强视觉-语言-动作模型的概念——展示了机器人可以通过维持与物理世界交互的持久记忆来学习和改进。
2月带来了A-MEM论文,提出了一种智能体式记忆管理方法,记忆系统本身是一个能够决定记住什么、何时遗忘以及如何组织知识的自主智能体。A-MEM架构引入了"记忆反思"概念——记忆智能体定期回顾存储知识、识别差距和矛盾并生成更高层次摘要的过程。
3月出现了几篇重要的基准测试论文。LoCoMo基准测试被多个研究组采纳为长对话记忆的标准评估框架。共享基准的可用性是该领域的分水岭时刻。
同样在Q1,OpenAI发布了描述ChatGPT记忆功能架构的技术博客。该文揭示ChatGPT的记忆本质上是一个扁平的键值存储。这引发了关于其局限性的广泛讨论。
Q1还见证了mem0 v0.1的发布,这个开源记忆框架全年成为AI基础设施社区讨论最多的项目之一。
3. 第二季度:产品成形
2025年第二季度,从研究到产品的转变变得不可否认。多家公司推出或扩展了AI记忆产品。
4月,Anthropic宣布Claude将支持跨对话的持久记忆。Claude的实现采用了与ChatGPT不同的方法——使用结构化记忆类别而非扁平键值存储。
5月,MemoryLake公开测试版发布,包括MCP集成,允许任何兼容MCP的AI系统访问我们的六类记忆架构。这代表了第一个跨平台记忆解决方案。
同样在5月,开源社区围绕"记忆中间件"概念集结——位于AI应用和记忆后端之间的标准化API层。
6月标志着AI记忆系统首次大规模企业部署。多家财富500强公司公开讨论了为客服AI采用持久记忆,报告客户满意度提升15-30%。
到Q2末,该领域在几个关键架构模式上达成了共识:多类型记忆存储、混合检索机制和显式冲突检测。
4. 第三季度:基准与竞争
第三季度以基准测试、竞争和记忆基础设施领域明确性能层级的出现为特征。
7月发表了迄今最全面的记忆基准研究,在LoCoMo评估框架上比较了12个不同的记忆系统。该研究将系统分为三个层级。第一层(85%+准确率)仅包括具有多类型记忆和混合检索的系统。
这种分层分类虽有争议但很有影响力。它提供了评估记忆系统的清晰框架,也引发了"基准竞赛"。
8月,ClawdBot推出——一个使用MemoryLake持久记忆的Claude驱动AI伴侣。用户报告该机器人不仅记住事实,还记住数周数月关系的细微差别和背景。
9月由"记忆隐私辩论"主导。欧洲数据保护委员会发布了初步指导,建议AI记忆系统属于GDPR自动化画像条款的范围。
到Q3末,市场动态已经明确:记忆正成为AI产品的竞争差异化因素。
5. 第四季度:记忆走向主流
2025年最后一个季度,AI记忆从技术类别跨越到主流预期。
10月,Google宣布Gemini将支持"深度记忆"——一个区分事实、情景和程序性记忆类型的多层记忆系统。这验证了MemoryLake等一直倡导的多类型记忆架构。
11月,阿里巴巴Qwen发布记忆模块,使记忆成为所有主要基础模型提供商的标准功能。
同样在11月,MCP规范更新以包含标准化记忆操作——读、写、搜索、删除和冲突检查。
12月以综合记忆综述论文(arxiv:2512.13564)的发表为这一年画上完美句号。
Q4的数据令人瞩目。根据AI基础设施联盟的调查,67%的AI开发团队现在认为记忆是生产智能体的"必需"功能,年初这一数字仅为12%。
6. 里程碑时间线
以下是今年AI记忆最重要事件的精简时间线。每个里程碑代表记忆从研究课题到基础设施类别转变的一步。
1月:MemoryVLA论文展示具身AI记忆。2月:A-MEM引入自反思的智能体记忆管理。3月:LoCoMo被采纳为标准评估框架。4月:Claude推出持久记忆功能。5月:MemoryLake公测,含跨平台MCP集成。6月:首批大规模企业部署报告AI性能提升15-30%。
7月:斯坦福基准研究建立三层记忆系统分类。8月:ClawdBot发布展示消费级AI记忆。9月:记忆隐私辩论和GDPR指导。10月:Google Gemini宣布多类型深度记忆。11月:MCP规范更新标准化记忆操作。12月:记忆综述论文提供统一分类和评估框架。
纵观这个时间线,进展清晰:从Q1的学术基础,到Q2的产品发布,到Q3的竞争差异化,到Q4的主流采用。这是经典的技术成熟模式,压缩在一年之内。
7. 我们学到了什么
回顾这一年,几个教训尤为突出。
首先,记忆类型多样性比大多数人预期的更重要。在基准测试和用户满意度研究中表现最好的系统是维护多种记忆类型的系统。
其次,上下文窗口不是记忆的替代品。尽管上下文窗口持续增长,"把一切放入上下文"的论点已被彻底推翻。
第三,隐私不是事后想法——它是设计要求。Q3的记忆隐私辩论表明,任何不从根本上包含强大隐私控制的记忆系统都将面临监管和用户信任挑战。
第四,跨平台记忆是下一个前沿。用户与多个AI系统交互,期望偏好和上下文跨平台跟随。
第五,基准测试加速进步但也可能扭曲进步。LoCoMo的采纳加速了进步,但也导致了一些基准博弈。
转变:从被动存储到主动智能
2025年最具深远影响的发展也许不是任何单一产品或论文,而是"AI记忆"含义的概念性转变。年初,记忆等同于存储——跨会话持久化事实。到年底,领先系统已将定义扩展到包括两个额外支柱:记忆计算和外部数据补充。
随着系统从简单检索转向主动推理,记忆计算浮现出来。冲突检测——标记用户声明的偏好与先前偏好矛盾——到第三季度已成为基本能力。但前沿推进得更远:时间趋势分析(这个客户的情绪在六个月内如何变化?)、多跳推理(鉴于这个用户的角色和他们团队最近的决策,什么上下文最相关?)和模式综合(这个项目在其记忆历史中表现出什么反复出现的失败模式?)。记忆不再是被动的查找表,而开始成为推理基底。
外部数据补充同步成熟。早期记忆系统受限于对话——它们只知道用户告诉的内容。到2025年底,生产系统正在将CRM记录、文档库、实时市场数据源、日历事件和API响应摄入记忆图谱。11月的MCP规范更新标准化了记忆操作,也使外部数据源可以直接写入记忆服务器。这意味着AI智能体的记忆可以从结构化外部数据增长,而不仅仅来自非结构化对话。
记忆存储、计算和补充的融合定义了记忆基础设施的走向。只存储的系统是数据库。既存储又计算的系统是智能层。既存储、又计算、又主动从外部源补充的系统是知识引擎。2025年的轨迹明确指向第三个类别。
8. 2026年预测
基于我们在2025年观察到的趋势,以下是我们对来年AI记忆基础设施的预测。
预测1:记忆成为平台功能。到2026年底,每个主要AI平台都将包含内建记忆管理。记忆将像认证或日志一样标准和预期。
预测2:跨平台记忆标准出现。不同AI系统间记忆的碎片化将推动互操作性标准的需求。MemoryLake的Memory Passport是这一愿景的早期实现。
预测3:记忆隐私监管到来。2025年Q3的初步GDPR指导将在2026年演变为具体的监管要求。
预测4:记忆原生应用出现。就像"云原生"应用从根本上为云基础设施设计一样,我们将看到围绕持久记忆构建的"记忆原生"应用。
预测5:遗忘问题得到解决。AI记忆中最大的开放挑战之一是知道该忘记什么。2026年,我们预计将看到智能遗忘的首个强大实现。
进入2026年,基础已经奠定。论文已发表,基准已建立,产品已推出,市场已表态。AI记忆就是基础设施。问题不再是AI系统是否应该记忆——而是它们应该记得多好,以及谁控制这些记忆。
参考文献
- Zhang, Y., et al.《大型语言模型智能体的记忆机制综述》arXiv:2512.13564,2025年12月。
- AI基础设施联盟。《AI记忆基础设施现状报告》2025年12月。
- Maharana, A., et al.《LoCoMo:LLM长对话记忆基准测试》arXiv,2024。
- 欧洲数据保护委员会。《关于AI记忆系统和GDPR的初步指导》2025年9月。