返回博客
产品2026年1月8日14分钟阅读

我告诉ChatGPT我的偏好50次——它为什么还是忘记

你没有在想象。你的AI助手确实在忘记你告诉它的东西。原因在此,真正的解决方案是什么样的。

I prefer dark modeI am vegetarianI use TypeScriptBirthday: Mar 15Switched to Rust50 times told. Still forgotten.

1. 金鱼治疗师

想象你在看心理治疗师。每周你走进同一间办公室,坐在同一把椅子上,和同一个人交谈。你分享你的挣扎、胜利、人际关系中的模式、工作生活的细节。经过数月和数年,你的治疗师对你建立了深刻的理解——不仅是事实,还有上下文、细微差别、影响你所说一切的未言假设。

现在想象每周,你的治疗师走进来时完全空白。他们不记得上周的会谈。不记得你母亲叫Margaret。不记得你在九月换了工作。不记得你今天描述的焦虑与三周前讨论的职场冲突相关。每次会谈从零开始。

这,以惊人的准确度,描述了使用大多数AI助手的感受。你告诉ChatGPT你的名字、角色、偏好、上下文——然后你再告诉它一次。又一次。又一次。如果你感到过这种挫败感,你不是一个人,你没有做错什么,也不是在想象。问题是真实的、技术性的、可解决的。

在本文中,我们准确解释为什么你的AI助手忘记你告诉它的东西,在技术层面发生了什么,以及真正解决AI记忆问题的方案是什么样的。

2. 实验

为了量化问题,我们进行了一个简单实验。在四周内,我们像普通用户一样与ChatGPT(启用记忆的GPT-4)交互——讨论工作项目、个人偏好、饮食限制、沟通风格偏好和技术工具选择。我们明确陈述了50条不同的偏好和事实。

四周结束时,我们通过询问ChatGPT关于50条偏好的问题来测试召回。结果对认真使用AI助手的人来说并不意外。

50条明确陈述的偏好中,ChatGPT正确召回了23条(46%)。对11条有模糊或部分正确的记忆(22%)。对16条完全没有记忆(32%)。但数字本身并不能说明全部。召回的质量与数量同样重要。

50-Preference Recall TestChatGPT46% recalledMemoryLake94% recalledCorrectPartialForgotten

例如,我们在三次不同对话中告诉ChatGPT"我是素食者"。它记住了这个事实。但当我们说"我过去吃肉但去年因健康原因成为素食者"时,它存储了"素食者"的事实却丢失了上下文——转变、时间和动机。

另一个案例中,我们在三次对话中讨论了一个复杂的工作情况。每次对话被孤立记忆,但ChatGPT无法将它们连接起来。

最令人沮丧的是矛盾。我们8月告诉ChatGPT偏好Python,10月讨论了迁移到Rust。11月被问到时,它自信地推荐了Python。没有冲突检测,没有时间推理——只是扁平检索"最近"的记忆。

3. 到底发生了什么

要理解AI助手为什么忘记,你需要了解一个基本事实:大语言模型没有内在记忆。没有。零。GPT-4、Claude、Gemini——它们默认都是无状态的。每次你发消息,模型处理时就好像从未见过你。任何记忆的表象都来自附加到模型上的外部系统。

这不是设计缺陷——是基本架构特征。当你与ChatGPT"对话"时,实际发生的是你的整个对话历史随每条新消息一起发送给模型。模型阅读整个对话,生成响应,然后忘记一切。

这意味着AI助手的任何记忆能力都来自一个独立系统,截取对话、提取信息、存储并在相关时检索。AI记忆的质量完全取决于这个外部记忆系统的质量。

让我们看看导致我们观察到的失败的具体技术限制。有三个主要问题:无状态API架构、扁平记忆模型和上下文窗口幻觉。

4. 无状态API问题

最基本的问题是架构性的。驱动AI助手的API是无状态的——每个请求独立于其他请求。API没有"此用户之前发送了500条消息"或"此对话与那个对话相关"的概念。

这意味着跨对话维护记忆需要应用程序显式存储信息并在新请求中包含相关信息。如果应用程序不存储某条信息,它就永远消失了。

无状态API设计有其充分理由——使系统可扩展、可预测。但它对记忆系统施加了巨大的负担。

ChatGPT的应用使用LLM分析对话并提取"记忆"——捕获关键事实的短文本片段。这听起来合理,但细节中藏着魔鬼。

提取过程是有损的。当LLM分析对话提取记忆时,它对什么重要做出判断——这些判断往往是错的。提取是一次性事件,没有纠正、细化或丰富的机会。

5. 扁平记忆:键值陷阱

第二个主要问题是扁平记忆模型。ChatGPT的记忆系统将信息存储为扁平的键值风格文本片段列表。每条记忆是独立陈述,与其他记忆没有关系,没有时间上下文,没有置信度分数。

扁平模型以几种可预见的方式失败。首先,它不能表示记忆之间的关系。你因健康原因成为素食者和正在训练马拉松被存储为两个不相关的片段。

其次,扁平模型无法处理时间推理。所有记忆存在于永恒的现在——没有何时学到或事件多久前发生的概念。

第三,没有冲突检测。当你说的与存储记忆矛盾时,系统没有检测冲突、评估证据或维护版本历史的能力。

第四,扁平模型没有记忆类型概念。职业背景事实、饮食偏好、过去事件和沟通风格偏好都以相同方式存储。

扁平记忆模型流行因为它实现简单。但这种简单以记忆质量为代价。

Flat Memory vs. Typed MemoryFlat Key-ValueUser is vegetarianUser prefers PythonUser works in fintechUser likes dark modeMeeting about budgetUser switched to Rust6-Type ArchitectureBGWorks in fintechFactVegetarian (since Jan 2025)FactRust (was: Python, updated Oct)EventBudget meeting, Nov 12ReflPrefers minimal UISkillCode reviews: security first

6. 为什么上下文窗口不是记忆

有人可能认为不断扩大的上下文窗口解决了记忆问题。但这个论点有根本缺陷。

首先是成本。在每个请求中包含用户的整个交互历史将极其昂贵。每条消息$0.10-0.30,经济上不可持续。

其次,注意力退化。研究表明长上下文中间的信息获得的关注较少——称为"迷失在中间"效应。

第三,上下文窗口是临时的。它们为单个请求存在然后被丢弃。上下文窗口不是记忆——是工作记忆。真正的记忆跨对话、跨会话、跨平台持久存在。

第四,上下文窗口不提供结构。所有信息默认获得同等处理。没有优先排序机制。

上下文窗口和记忆系统的关系是互补的,不是竞争的。

更深层的差距:没有计算,没有外部补充

到目前为止描述的问题——无状态API、扁平记忆和上下文窗口幻觉——是记忆存储的失败。但ChatGPT的记忆还有两个较少讨论的差距:它无法对记忆进行计算,也无法从外部来源补充记忆。

记忆计算意味着记忆系统主动对存储的知识进行推理。当你在3月告诉ChatGPT"我偏好Python",在9月说"我一直在将所有东西迁移到Rust"时,一个能计算的记忆会检测冲突、比较时间信号并解决它——得出Rust是当前偏好而Python是历史上下文的结论。ChatGPT的扁平记忆不做这些。两个事实共存而没有张力。没有冲突检测,没有时间推理,没有多跳推理将你的语言迁移与你改变的调试工作流或更新的库偏好联系起来。记忆只存储;不思考。

外部数据补充意味着记忆系统可以整合对话之外的信息。你的AI助手原则上可以拉取你的GitHub活动来了解你的实际技术使用情况,摄入你的日历来了解你的可用性模式,或整合你每天使用的工具的实时文档变更。ChatGPT的记忆完全受限于对话——它只知道你在聊天会话期间明确告诉它的内容。它无法接触外部来源来验证、更新或补充其存储的内容。这意味着它对你的模型始终不完整,始终落后于你的实际行为和上下文。

完整的记忆系统有三大支柱:记忆存储(跨会话持久化事实)、计算(对这些事实进行推理——检测冲突、推断趋势、综合模式)和外部补充(主动拉取外部数据以超越对话输入增长记忆)。ChatGPT部分解决了第一个支柱,其他两个完全没有。这就是为什么即使它正确记住了一个事实,它的回应往往感觉肤浅——它有数据点但无法对其进行推理或将其与你更广泛的上下文联系起来。

7. 真正的记忆是什么样的

现在我们理解了问题,真正的解决方案是什么样的?一个真正有效的记忆系统需要解决我们识别的所有三个失败。

首先,它需要以不同方式存储不同类型的信息。你的职业背景不应与上周二的对话以相同方式存储。

其次,它需要时间感知。记忆应有时间戳,系统应理解昨天陈述的偏好比六个月前的更可能是当前的。

第三,它需要冲突检测和解决。当新信息与现有记忆矛盾时,系统应检测冲突、评估证据并智能解决。

第四,它需要关系感知。记忆不是孤立的事实——它们以有意义的方式相连。

第五,它需要主动。不仅在用户提问时检索记忆,还要持续更新AI对用户的理解。

这正是MemoryLake的六类记忆架构提供的:背景记忆、事实记忆、事件记忆、对话记忆、反思记忆和技能记忆。每种类型有自己的存储格式、索引策略和检索机制。

8. 94.03%的差距

在LoCoMo基准测试上,MemoryLake达到94.03%准确率。ChatGPT的记忆系统约55-65%。

差距在扁平记忆模型失败的任务上最大:时间推理(92% vs ~45%),多跳查询(93% vs ~50%),对抗一致性(91% vs ~48%)。这些不是边缘案例——是日常记忆使用的核心。

我们用相同的50偏好协议测试了MemoryLake。四周后,MemoryLake正确召回了47/50条偏好(94%)。更重要的是,它保留了与每条偏好相关的上下文、关系和时间信息。

它遗漏的三条是用户在较长讨论中顺带提到的,提取系统分配了低置信度。其中两条部分捕获在对话记忆中。

这不是边际改进——是类别性的。50%召回和94%召回的区别不仅是"更好的性能"。是令人沮丧的忘记AI和赢得信任的记忆AI之间的区别。是金鱼治疗师和真正治疗师之间的区别。

9. 你现在能做什么

如果你对AI助手的记忆感到沮丧,有几个步骤可以立即改善情况。

首先,对当前AI明确和重复。清楚地陈述偏好。在每次对话开头预加载重要上下文。注意到AI忘记时直接纠正。

其次,使用AI助手的记忆管理工具。ChatGPT允许查看和编辑存储的记忆。定期检查,删除错误条目。

第三,考虑使用专用记忆层。MemoryLake的Memory Passport通过MCP集成ChatGPT、Claude等AI助手,提供六类记忆、冲突检测和时间推理。你的偏好和历史跨不同AI平台跟随你。

金鱼治疗师问题不是不可避免的。它是当前AI记忆架构的具体技术限制,具体的技术解决方案存在。问题不是AI助手是否最终会好好记住我们——会的。问题是你是否想等主要平台赶上来,还是今天就要可靠的记忆。

你的AI助手应该了解你。不仅是你告诉它的事实,还有上下文、连接、偏好随时间的演变。它应该知道你转向素食、马拉松训练和对备餐的兴趣都是相关的。这就是记忆。这就是我们正在构建的。

参考文献

  1. Liu, N., et al.《迷失在中间:语言模型如何使用长上下文》arXiv:2307.03172,2023。
  2. OpenAI.《ChatGPT的记忆和新控制》blog.openai.com,2024年2月。
  3. Maharana, A., et al.《LoCoMo:LLM长对话记忆基准测试》arXiv,2024。
  4. MemoryLake技术报告。《六种AI记忆类型:架构与评估》memorylake.ai,2025。

相关文章