返回博客

AI 记忆的 6 种类型(以及为什么聊天历史不算其中之一)

大多数 AI 系统将存储对话与记忆混为一谈。真正的记忆有六种不同类型——每种都服务于根本不同的认知功能。

2025年8月18日·20 分钟阅读·MemoryLake 研究团队
Memory SystemBackgroundFactualEventConversationReflectionSkillChat HistoryNOT a memory type

1. 厨师的类比

思考一下大厨"记住"意味着什么。当 Julia 大厨走进厨房时,她携带着不同种类记忆的非凡集合。她知道巧克力调温的精确温度——这是事实性知识,存储为语义记忆。她记得在东京第一次品尝真正芥末的那个晚上——这是情景记忆。她可以以惊人的速度将胡萝卜切丝而无需有意识地思考——这是程序记忆。

但 Julia 大厨的记忆比这些教科书分类更深。她对自己有一个背景理解——一个受过经典法式训练后来拥抱日本技术的厨师。她积累了数百个事实性偏好:她总是用 Maldon 海盐,从不用碘盐;她偏好燃气灶而非电磁炉。她反思了自己的职业轨迹并综合出洞见:"融合菜在缺乏对两种传统的尊重时就会失败。"

关键的是,她还有技能——不仅仅是运动技能,还有认知模式。她知道如何挽救分离的荷兰酱,如何为海拔调整调味,如何兼顾美观和温度保持来摆盘。

现在考虑当我们通过存储聊天历史来给 AI 系统"记忆"时会发生什么。我们给了它每次对话的原始记录——相当于给 Julia 大厨一份她所有厨房互动的录音。但录音不是记忆。她无法从一千小时的录音带中快速回忆她对巧克力调温的了解。

这正是将聊天历史视为记忆的问题所在。聊天历史是无差别的数据。记忆是结构化的知识。它们之间的区别就是录制了所有烹饪节目的厨师和真正从二十年经验中学到东西的厨师之间的区别。

像厨师的头脑:食谱是程序记忆,味觉记忆是情景记忆,食品科学是语义记忆。

2. 为什么聊天历史不够

当今最常见的 AI"记忆"方法是某种形式的聊天历史存储。但即使是增强的方法也从根本上不足以实现真正的记忆。

聊天历史失败有五个原因。第一,它是无类型的。每条信息——无论是用户的名字、偏好、事件还是观点——都以相同的格式存储。没有类型,系统就无法优先排序、过期或差异化检索信息。

第二,聊天历史是无结构的。对话会漫游。单次聊天可能涵盖用户的周末计划、Kubernetes 技术问题、女儿生日的提及和对网络供应商的投诉。

第三,聊天历史缺乏时间推理。它可能存储时间戳,但不理解信息随时间演变。

第四,聊天历史不会整合。人类记忆自然地压缩和抽象。访问一家餐厅十次后,你不会单独记住每次访问。

第五,聊天历史不会反思。人类记忆包括元认知过程:我们思考自己的经历,得出结论,形成新的信念。

1BackgroundWho you are"Senior engineer at Stripe"volatility2FactualWhat you know/prefer"Prefers dark mode"volatility3EventWhat happened when"Deployed v2.0 on March 15"volatility4ConversationHow you communicate"Prefers code before text"volatility5ReflectionSynthesized insights"Underestimates by 30%"volatility6SkillLearned procedures"Reviews: critical first"volatility

3. 类型一:背景记忆

背景记忆存储关于一个人或实体的基础性、身份级别的信息。它回答这个问题:"这个用户从根本上来说是谁?"

背景记忆的例子:"Sarah 是 Stripe 的 34 岁软件架构师。""Alex 拥有 MIT 的计算生物学博士学位。""用户的主要语言是普通话。"

背景记忆以其稳定性著称。它们是变化最慢的记忆类型,构成了所有其他记忆被解读的基础。

在厨师类比中,背景记忆就像知道 Julia 大厨受过经典法式训练。这单一事实塑造了你如何解读她做的一切。

背景记忆在记忆系统中有特殊属性:高置信度、低波动性、高优先级。它们是基石。

4. 类型二:事实记忆

事实记忆存储关于用户或其世界的具体、声明性知识。与捕获身份的背景记忆不同,事实记忆捕获偏好、信念、知识和具体信息。

例子:"用户在所有应用中偏好暗色模式。""Sarah 对贝类过敏。""团队使用 PostgreSQL 15。"

事实记忆比背景记忆更具波动性——偏好会改变,预算会调整,观点会演变。事实记忆系统必须优雅地处理更新。

事实记忆的关键挑战是冲突检测。用户经常在不同对话中提供矛盾的事实而不自知。

在厨师类比中,事实记忆是 Julia 大厨积累的具体知识:Maldon 海盐优于碘盐,燃气优于电磁炉,黄油来自诺曼底的特定农场。

5. 类型三:事件记忆

事件记忆存储带时间戳的发生事项——在特定时间点发生的事情。事件与事实不同,因为它们锚定在时间时刻。

例子:"3月15日,用户将应用部署到生产环境并遇到了支付模块的严重错误。""上周二,Sarah 提到她被提升为 Staff Engineer。"

事件记忆至关重要有几个原因:它们实现时间推理,提供因果链,并作为其他记忆的锚点。

事件是驱动所有其他记忆类型演变的动态力量。

在厨师类比中,事件记忆是特定的经历:舒芙蕾塌陷的那个晚上,第一次品尝真正芥末的时刻,赢得第一颗米其林星的晚餐。

记忆系统必须以丰富的时间元数据存储事件:不仅是"何时",还有"多长时间"、"之前发生了什么"和"之后发生了什么"。

6. 类型四:对话记忆

对话记忆捕获互动本身的动态和模式——不是讨论内容(属于其他记忆类型),而是用户如何沟通和互动的元模式。

例子:"用户通常以问候和简短的上下文设定语句开始会话。""Sarah 偏好在解释之前先看代码示例。""当回复超过 500 字时,用户会变得沮丧。"

对话记忆是六种类型中最被忽视的,但对用户体验至关重要。了解用户喜欢讨论什么不如了解他们喜欢如何讨论重要。

对话记忆还捕获关系动态。用户如何回应建议?他们偏好选项还是推荐?

在厨师类比中,对话记忆就像知道 Julia 大厨如何与副厨沟通。她在上菜时下达命令,但在准备时耐心解释技术。

7. 类型五:反思记忆

反思记忆存储综合性洞见——从多个记忆、事件和互动中的模式得出的结论。反思记忆不是直接观察到的;它们由系统通过内省和综合过程生成。

例子:"根据过去三个月前端相关问题数量的增加,该用户正在从后端向全栈开发转型。""根据五次报告的估计与实际完成日期的比较,Sarah 倾向于将项目时间低估约 30%。"

反思记忆独特地强大,因为它们捕获了任何单次互动都无法揭示的知识。

人类认知是深度反思性的。我们不断处理经历、提取模式、更新心智模型并生成新信念。AI 系统需要同样的能力。

反思记忆也作为压缩机制。它比原始数据更紧凑、更可操作、更可泛化。

在厨师类比中,反思记忆是 Julia 大厨来之不易的智慧:"融合菜在缺乏对两种传统的尊重时就会失败。"

Park 等人的生成式代理研究中,反思被确定为创造可信代理行为的关键组成部分。

8. 类型六:技能记忆

技能记忆存储学习到的程序、模式和能力。与存储系统知道什么的事实记忆不同,技能记忆存储系统能做什么。

例子:"当这个用户要求代码审查时,他们想要:(1) 关键问题优先,(2) 风格建议其次,(3) 积极反馈最后。"

技能记忆是通过反复互动发展的学习程序。它们不是明确教授的——它们从观察什么有效什么无效的模式中浮现。

技能记忆和事实记忆之间的区别微妙但重要。"用户偏好 TypeScript"是事实。"为此用户生成代码时,始终包含类型注解、使用严格模式并为公共函数添加 JSDoc 注释"是技能。

在厨师类比中,技能记忆是最具体化的知识形式。Julia 大厨不需要有意识地思考如何折叠蛋白——程序编码在她的手中、时机中、对面糊稠度的感觉中。

技能记忆也是最可转移的类型。从一个用户的偏好中学到的技能可能部分适用于类似的用户。

9. 六种类型如何协同工作

类型化记忆系统的真正力量不是来自任何单一类型,而是来自所有六种类型之间的互动。

只有聊天历史的系统会搜索以前的对话寻找相关片段。它会将所有内容视为可互换的文本。

拥有所有六种记忆类型的系统会以完全不同的方式处理问题。背景记忆告诉系统用户是高级后端工程师。事实记忆揭示公司使用 PostgreSQL。事件记忆回忆上个月的数据库性能问题。对话记忆知道用户偏好简洁的回答。反思记忆综合出用户倾向于最小化运维复杂性的方案。技能记忆知道推荐技术时应包含成本估算。

所有六种类型协同工作时,系统生成的回答不仅技术上正确,而且个人化优化。这是记忆,不是搜索结果。

这需要所有六种类型协同工作。

How Memory Types Interact"Should I use Redis or PG?"BackgroundSenior BE @ fintechFactualUses PG 15, rejected RedisEventDB perf issue last monthConversationLikes concise + opinionsReflectionMinimizes ops complexitySkillInclude cost estimatesPersonalized, context-aware response

10. 记忆类型矩阵

为了使六种类型具体化,以下是比较它们在五个维度上关键属性的矩阵:波动性、来源、检索方式、过期时间和优先级。

背景记忆:极低波动性,来自用户陈述和档案数据,通过身份查找检索,很少过期,最高优先级。

事实记忆:低到中等波动性,来自用户陈述和系统推理,通过语义相似性和类型过滤检索,被新事实取代时过期,高优先级。

事件记忆:高波动性,来自用户报告和系统观察,通过时间查询和语义相似性检索,取决于重要性的可变过期时间,中到高优先级。

对话记忆:中等波动性,来自互动模式分析,在回答生成时隐式检索,很少过期但逐渐演变,高优先级。

反思记忆:低波动性,由系统通过综合生成,在规划和复杂推理时检索,当底层模式改变时过期,高优先级。

技能记忆:低波动性,从重复互动模式生成,通过任务类型匹配检索,很少过期但可以精炼,任务执行时最高优先级。

11. MemoryLake 中的实现

MemoryLake 将所有六种记忆类型作为其架构中的一等公民实现。每种类型都有专用的存储模式、检索机制和生命周期管理策略。

MemoryLake-D1 推理引擎在每个阶段都利用类型信息。处理用户查询时,它首先检索背景记忆以建立上下文,然后查询事实记忆获取领域知识,检查事件记忆了解最近的相关发生事项,应用对话记忆来格式化回答,利用反思记忆获取战略洞见,并激活技能记忆用于特定任务的程序。

这种类型化方法是 MemoryLake 在 LoCoMo 基准测试上达到 94.03% 准确率的关键因素。

实际影响是可衡量的。在 A/B 测试中,使用类型化记忆生成的回答被评为比从扁平聊天历史生成的回答相关度高 2.3 倍。

12. 隐藏的第七种能力:计算与外部数据补充

六种记忆类型描述了存储什么。但有一种能力贯穿所有六种类型且同样根本:计算。每种记忆类型不仅仅是被动的存储——它是推理的活跃基底。事实记忆被相互检查以发现冲突。事件记忆被分析以寻找时间模式和因果链。反思记忆从数百个其他记忆中检测到的模式综合而成。技能记忆通过反复观察什么有效而精炼。这个计算层——冲突检测、时间推理、多跳推理、模式综合、偏好建模——是将数据库转变为心智的关键。

考虑区别。存储系统说:"用户偏好 Python。"计算记忆系统说:"用户自 2021 年从 Java 切换以来一直偏好 Python,主要用于数据科学任务,但最近对 Rust 在性能关键工作中的兴趣日益增长——暗示可能的第二次语言转换。"第二个陈述并非作为单个事实存储在任何地方。它是从事实、事件、反思和技能记忆的交叉中计算出来的。

同样关键的是外部数据补充——记忆系统不仅从对话中生长,还从外部世界中生长的能力。用户提到正在评估新的数据库技术。记忆系统可以拉取基准数据、文档、开发者论坛的社区情绪和定价信息——将这些外部知识作为具有完整溯源的一等记忆进行整合。这将记忆从只知道用户告诉它什么的封闭系统转变为主动扩展知识以更好服务用户的开放系统。

MemoryLake 实现了这两种能力。其 D1 引擎对记忆图谱执行持续计算——检测冲突、推断模式、综合反思。其数据补充管道整合外部数据源,包括文档、API 和网络内容。这些共同确保六种记忆类型不仅被存储,还被积极推理并持续丰富。

13. 结论

聊天历史不是记忆。它是原始数据——无差别、无结构、未处理。真正的记忆需要类型化。

AI 记忆的六种类型不是学术分类。它们是工程要求。没有它们,AI 系统注定将每次互动视为全新开始。

AI 的未来不是存储更多对话的系统。而是真正记住的系统。这个未来始于理解记忆不是一件事,而是至少六件事。

参考文献

  1. Lewis, P., et al. (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks." NeurIPS 2020.
  2. Maharana, A., et al. (2024). "Evaluating Very Long-Term Conversational Memory of LLM Agents." ACL 2024.
  3. Park, J.S., et al. (2023). "Generative Agents: Interactive Simulacra of Human Behavior." UIST 2023.

体验所有六种记忆类型的实际效果

试用 MemoryLake