1. 金鱼治疗师
想象去看一位有金鱼记忆的治疗师。每次就诊,她都像从未见过你一样向你打招呼。你解释你的工作、家庭、对公开演讲的焦虑。她认真倾听,提供深思熟虑的建议。下周你回来——她完全不知道你是谁。你从头开始。
这不是假设。这就是直到最近每个主要 AI 系统的工作方式。ChatGPT、Claude、Gemini——在它们存在的大部分时间里,每次对话都从空白状态开始。它在功能上就是一个金鱼治疗师:当下很出色,跨会话失忆。
现在想象相反的情况。你去看一位拥有你完整病历的医生。她知道你的过敏史、家族史、你服用过的每种药物。当你提到新症状时,她不需要你重复整个病史——她将新信息与现有画面联系起来。
从金鱼治疗师到知识渊博的医生的进化就是从无状态到有状态 AI 的进化。这不仅仅是功能升级——它是一个架构转型,从根本上改变了 AI 系统能做什么。
在这篇文章中,我们将追踪这种架构进化的五个层级,从简单的聊天历史缓冲区到拥有持久记忆层的完全有状态智能体。
从"金鱼治疗师"到"拥有完整病历的医生"。
2. 无状态的 Web:我们如何到达这里
要理解为什么 AI 系统是无状态的,我们需要理解为什么 Web 是无状态的。互联网的基本协议 HTTP 在设计上是无状态的。每个请求-响应周期都是独立的。
无状态性很好地服务了早期 Web。不维护状态的 Web 服务器可以处理数百万并发用户,因为每个请求都是自包含的。
但无状态也造成了一个根本限制:Web 无法记住。回应是 cookies——存储在客户端上的小块状态。Cookies 是一个黑客手段,是对从未为持久记忆设计的无状态架构的变通方案。
REST 架构风格加倍押注无状态。RESTful API 将每个请求视为独立事务。处理请求所需的任何状态都必须包含在请求本身中。
当大型语言模型作为 API 服务出现时,它们继承了这种架构。OpenAI API、Anthropic API 等遵循 REST 惯例:每个请求包含对话历史,服务器在请求之间不维护状态。
这种继承不是不可避免的——它是由与原始 Web 相同的考虑驱动的设计选择:可扩展性、简单性和成本。但这种选择带来了代价:AI 系统继承了 Web 的失忆症。
3. 为什么无状态对 AI 失败
对于服务静态内容的 Web API,无状态是合理的默认值。但 AI 助手不是静态内容服务器。它们是关系导向的系统,交互质量随共享历史而提高。
这种不匹配以四种方式表现。第一,上下文重复。每次会话,用户都必须重新建立系统应该已知的上下文。
第二,失去连续性。项目跨越数天、数周和数月。用户需要一个记得上周架构决策的 AI 助手。
第三,不可能的个性化。真正的个性化需要纵向观察。无状态系统无法学习因为它无法记忆。
第四,破坏信任。当 AI 系统忘记你昨天告诉它的话,它传达了一个破坏性的信息:"你不重要到值得记住。"
结果是无状态 AI 系统陷入局部最优:它们可以个别地出色但集体地平庸。突破这个局部最优需要添加状态。
4. 架构层级 1:聊天历史缓冲区
AI 系统中最简单的状态形式是聊天历史缓冲区:存储当前会话的对话轮次并在后续提示中包含它们。
实现很简单。每条用户消息和助手回复都附加到列表中。新消息到达时,整个列表包含在提示中。
聊天历史缓冲区解决了最基本的连续性问题:在单个会话内,助手可以引用之前的消息。
但它有三个严重限制:会话范围的、大小限制的、未处理的。
聊天历史缓冲区是记忆的 0 级。它们提供会话内连续性但仅此而已。它们是金鱼治疗师。
5. 架构层级 2:会话摘要
走向跨会话记忆的第一步是会话摘要。每次会话结束时,系统生成摘要并存储以供将来使用。
会话摘要解决了聊天历史缓冲区的大小问题。系统存储摘要而非完整记录。
实现的复杂度各不相同。最简单的方法使用语言模型本身来生成摘要。
会话摘要明显改善了用户体验。助手可以问候你:"上次我们讨论了你从 PostgreSQL 到 CockroachDB 的迁移。进展如何?"
但有重大限制。第一,有损。摘要不可避免地丢弃信息。
第二,扁平。会话摘要是没有结构的文本块。没有永久事实和临时细节的区分。
第三,不处理冲突。
6. 架构层级 3:对话上的 RAG
下一个进化是将 RAG 应用于过去对话的语料库。系统将所有过去的对话存储在向量数据库中,并在查询时检索最相关的段落。
这种方法将过去的对话视为文档语料库。
RAG 改善了信息保留。系统存储一切并按需检索相关内容。
但这种方法继承了 RAG 的所有限制:没有时间排序、没有冲突检测、没有个人建模。
更根本的是,对话上的 RAG 将记忆视为检索问题,而它实际上是知识管理问题。
层级 3 是大多数"记忆增强" AI 产品今天所在的位置。从层级 3 到层级 4 的跳跃是真正的转型。
7. 架构层级 4:持久化记忆层
持久化记忆层是一个专门的基础设施组件,位于 AI 模型和用户之间,负责提取、结构化、存储、索引和检索记忆。
层级 3(RAG)和层级 4(持久化记忆层)之间的关键区别是结构。在 RAG 中,记忆是无类型的文本块。在持久化记忆层中,记忆是类型化的、时间索引的、冲突检查的和关系连接的。
持久化记忆层通过记忆流水线处理每次交互:提取、结构化、索引、冲突检查、存储。
这个五步流水线将原始对话数据转化为结构化的、可操作的知识。
层级 4 是金鱼治疗师变成知识渊博的医生的地方。系统不仅回忆你说了什么——它理解你的意思,追踪你的情况如何演变,检测新信息何时与旧信息矛盾。
MemoryLake 是层级 4 持久化记忆层。其架构实现了所有五个流水线步骤,支持所有六种记忆类型,并在 LoCoMo 基准上达到 94.03% 的准确率。
8. 架构层级 5:有状态智能体
无状态到有状态进化的最终层级是完全有状态的智能体。
有状态智能体与层级 4 系统有三个重要区别。第一,记忆是双向的。第二,记忆驱动规划。第三,记忆实现学习。
有状态智能体不仅回应查询——它们维护跨会话持久的目标、计划和意图。
通过许多交互,有状态智能体构建越来越准确的用户、领域和任务模型。
层级 5 仍在兴起中。没有生产系统完全体现所有三个属性。但架构基础正在建立。
研究社区正在积极研究这一前沿。Park 等人的生成式代理展示了记忆和反思的模拟代理表现出惊人的类人行为。
9. 记忆驱动的计算与外部数据补充
从无状态到有状态的转变不仅仅是跨会话持久化数据。它解锁了无状态架构在任何层级都无法支持的两种能力:记忆驱动的计算和外部数据补充。
记忆驱动的计算意味着记忆层主动对其内容进行推理,而非被动地存储和检索。有状态系统可以检测两个记忆冲突,推断用户的职业变化意味着技术兴趣的转变,从数月的交互数据中综合行为模式,并执行跨越时间边界链接事实的多跳推理。这些计算操作在无状态系统中是不可能的,因为它们需要持久化的结构化状态来操作。如果没有上个月的记录,就无法检测到今天的陈述与上个月的矛盾。
外部数据补充意味着记忆系统不仅从对话中生长,还从外部世界中生长。有状态智能体可以集成来自网络搜索、文档上传、CRM 系统、实时市场数据和第三方 API 的数据——所有这些都作为具有溯源追踪的一等记忆存储。当用户提到正在评估新供应商时,系统可以拉取定价数据、评论和竞争分析,用外部知识丰富其记忆图谱,使未来的交互更加明智。
计算和补充共同将记忆从被动记录转变为主动知识系统。从层级 1(聊天缓冲区)到层级 5(有状态智能体)的进展不仅仅是记住更多——它是思考更多和了解更多。MemoryLake 的 D1 引擎实现了两种能力:对记忆图谱的持续计算(冲突检测、时间推理、模式综合)和整合文档、API 和网络内容的外部数据补充管道,所有数据都带有完整溯源。
10. 技术栈
实现持久化记忆层需要精心设计的技术栈。
记忆提取引擎:负责解析对话并提取结构化记忆。
双索引存储:记忆存储在两个并行索引中——向量索引和时间索引。
冲突检测引擎:在摄入时和生成时运行。必须快速——冲突检查的延迟预算通常在 100 毫秒以下。
版本控制系统:每个记忆都有版本历史。更新创建新版本而不是覆盖旧版本。
检索和融合层:在查询时检索相关记忆,应用类型过滤,处理记忆融合,管理上下文窗口预算。
MemoryLake 在统一平台中实现了所有五个组件,提供与任何 LLM 供应商集成的 API。
11. 迁移路径
对于目前运行在层级 1-3 的团队,迁移到持久化记忆层不需要从头重建。迁移可以是渐进的。
步骤 1:检测你的现有系统。了解你的用户在告诉系统什么。
步骤 2:添加背景记忆提取。从最简单最高价值的记忆类型开始。
步骤 3:添加带冲突检测的事实记忆。
步骤 4:添加时间索引和事件记忆。
步骤 5:添加反思和技能记忆。
MemoryLake 的平台支持这种渐进迁移。团队可以从基本记忆提取开始,随着数据和需求的增长逐步启用更高级的功能。
12. 结论
从无状态到有状态 AI 的进化不是功能请求。它是一个架构革命。
这种进化的五个层级代表了越来越高的记忆复杂度。最关键的过渡——从层级 3 到层级 4——是检索变为记忆、搜索变为理解、金鱼治疗师变为拥有完整病历的医生的地方。
AI 的未来是有状态的。因为最有价值的 AI 应用都需要记忆作为核心。
这个未来的架构今天已经存在。MemoryLake 提供了使任何 AI 系统从无状态进化到有状态的持久化记忆层。