为什么基准很重要
在机器学习中,你测量什么就得到什么。如果基准测试事实回忆,团队就会优化事实回忆。如果测试阅读理解,团队就会构建更好的阅读器。基准不仅评估系统——它们塑造了多年的研究和产品开发方向。
这就是为什么基准选择对 AI 记忆如此重要。多年来,主流基准——MMLU、HellaSwag、ARC、TruthfulQA——测试的是存储在模型权重中的知识。它们问的是"法国的首都是什么?"这样的问题。这些是重要能力,但它们无法告诉你系统能否记住你上周二说了什么。
Maharana 等人在 ACL 2024 上发表的 LoCoMo 改变了这一切。AI 社区第一次有了一个严格的、经过同行评审的基准,专门测试长期对话记忆——跨多会话对话回忆、推理和综合信息的能力。
现有基准的问题
考虑 MMLU 实际测试的是什么。它在 57 个学科中提出多项选择题。在 MMLU 上得分 90% 的系统展示了广泛的事实知识。但它没有展示任何关于记住用户偏好、追踪随时间变化的信息或检测会话间矛盾的能力。
HellaSwag 测试常识推理。ARC 测试科学问答。TruthfulQA 测试对常见误解的抵抗力。所有这些都很有价值,但都不足以评估记忆。这些基准都不涉及多轮对话、时间推理或个人上下文。
这个差距不是微妙的。一个系统可以在所有现有基准上完美得分,但在记住用户六个月前换了工作、饮食偏好改变或两次会话中提供的信息相互矛盾方面仍然会失败。在 LoCoMo 之前,根本没有标准化的方式来衡量这些能力。
什么是 LoCoMo?
LoCoMo——Long-Context Conversations with Memory——是 Maharana、Lee 和 Bansal 在 ACL 2024 上发表的基准测试。它评估 AI 系统在长篇自然对话中回忆和推理信息的能力。LoCoMo 中的对话跨越数百个回合,模拟用户和 AI 助手之间的真实多会话交互。
基准包含平均每个 300 个回合的对话,涵盖在模拟的数周和数月中自然演变的话题。用户讨论他们的工作、爱好、关系、旅行计划、健康目标和技术项目。信息逐渐引入,有时更新,偶尔矛盾——完全如同真实使用中一样。
LoCoMo 的独特之处不仅在于其长度,还在于其评估框架。LoCoMo 不是简单地测试系统是否能检索一个事实,而是测试四种不同的记忆能力:单跳回忆、多跳推理、时间理解和开放式综合。
四种问题类型
LoCoMo 的四种问题类型形成一个难度层次。单跳问题测试基本回忆。多跳问题测试组合事实的能力。时间问题测试对时间和变化的理解。开放式问题测试全面的个人理解。它们共同提供了记忆能力的完整图谱。
这种层次设计是刻意的。一个能回答单跳问题但在时间问题上失败的系统有特定的、可诊断的弱点——它能检索事实但不能推理它们何时被陈述或是否已改变。
通过独立测试每种能力,LoCoMo 允许研究人员和从业者准确识别其记忆系统在哪里成功、在哪里失败。这种诊断精度使基准真正有用。
单跳问题
单跳问题需要从对话历史中检索单个事实。例如:"Alex 去年夏天提到学习了什么编程语言?"答案存在于对话的某个特定回合中,系统需要找到并返回它。
这些问题是传统 RAG 的最接近类比——它们测试从大型语料库中定位和检索相关信息的能力。强大的嵌入模型和调优好的检索管道可以在单跳问题上取得好成绩,而不需要任何真正的记忆架构。
然而,LoCoMo 中的单跳问题比典型的 RAG 检索更难。目标事实嵌入在自然对话中,而不是结构化文档中。系统必须解析对话上下文,而不仅仅是匹配关键词。
多跳问题
多跳问题需要组合来自多个回合或会话的信息。例如:"根据 Sarah 的饮食限制和她最近的意大利旅行,你会推荐什么餐厅?"回答这个问题需要知道 Sarah 的饮食限制(在第 3 次会话中提到)和她的旅行偏好(在第 7 次会话中提到),然后综合它们。
多跳推理是大多数 RAG 系统开始挣扎的地方。Top-k 检索返回与查询最相似的 k 个块,但不能保证所有相关块都在前 k 个中。
真正的记忆系统通过维护用户信息的结构化表示来处理多跳问题——不仅是文本块,而是可以遍历和组合的类型化记忆。
时间问题
时间问题测试系统是否理解信息随时间的排序和演变。例如:"John 对远程工作的看法在一月到六月之间有变化吗?"这不仅需要知道 John 的看法,还需要知道每个看法是何时表达的,以及它们是否代表了变化。
时间推理可能是 AI 记忆中最关键且最被忽视的方面。向量相似度搜索——RAG 的支柱——没有时间概念。一月的陈述和六月的陈述占据相同的无时间嵌入空间。
LoCoMo 的时间问题无情地暴露了这一差距。只有具有真正时间意识的系统——那些维护每个事实何时被陈述以及它如何与先前事实相关的时间线的系统——才能可靠地回答这些问题。
开放式问题
开放式问题是最难的类别。例如:"根据你对 Maria 的所有了解,什么生日礼物她会喜欢?"没有单一正确答案。系统必须综合 Maria 的完整模型——她的爱好、风格、近期兴趣、性格——并生成一个周到的、个性化的回答。
这些问题测试认知科学家所称的"个人建模"——维护和推理另一个人的表征的能力。这可能是记忆中最具人类特征的方面。
开放式问题使用基于 LLM 的评估和人类校准的评分标准进行评分。评分标准考虑事实准确性、相关性、个性化和连贯性。
评估方法论
LoCoMo 使用混合评估方法,结合自动化指标和人类校准评分。对于具有确定性答案的单跳和多跳问题,基准使用精确匹配和 F1 评分。对于时间问题,使用精确匹配和基于评分标准的评估的组合。
评估在处理部分学分方面是严格的。正确识别 John 的观点发生了变化但弄错了变化方向的系统会获得部分学分——它展示了时间意识,即使具体回忆不完美。
LoCoMo 最重要的设计决策之一是包含"无法回答"的问题——看似合理但答案实际上不在对话中的问题。自信地回答无法回答的问题的系统是在产生幻觉,LoCoMo 明确惩罚这一点。
评分方式
LoCoMo 总分是四种问题类型的加权平均:单跳(25%)、多跳(25%)、时间(25%)和开放式(25%)。等权重确保系统不能通过在简单检索上表现出色而在更难的推理任务上失败来获得高总分。
系统在标准化环境中评估:每个系统接收相同的对话历史、相同的问题和相同的评估标准。对话足够长(300+ 回合),以至于它们无法完全放入大多数模型的上下文窗口中,迫使系统实现某种形式的记忆管理。
基准包含多个对话集以确保统计稳健性。结果附有标准差报告,评估代码是开源的,允许独立复现。
MemoryLake 的表现
MemoryLake 在 LoCoMo 基准测试上达到 94.03% 的总体准确率——是迄今为止所有被评估系统中最高的分数。按问题类型分解:单跳 95.71%、多跳 91.28%、时间 95.47%、开放式 93.68%。
95.47% 的时间分数特别重要。这是 RAG 系统最严重挣扎的类别,通常得分低于 70%。MemoryLake 的时间表现是其双索引架构的直接结果——向量索引用于语义相似性,时间索引用于时间排序检索。
91.28% 的多跳分数虽然是四个类别中最低的,但仍然代表了对基线方法的实质性改进。MemoryLake 的类型化记忆系统——将记忆分为背景、事实、事件、对话、反思和技能类型——使得结构化遍历成为可能。
结果揭示了什么
LoCoMo 结果揭示了不同记忆方法之间的清晰层次。使用纯 RAG 的系统在单跳问题上得分良好,但在时间和开放式问题上显著退化。使用扩展上下文窗口的系统显示更平衡的分数,但随着对话超过窗口长度而遇到上限效应。
最有趣的发现是检索改进和架构改进之间的差距。更好的嵌入和更大的上下文窗口在时间和开放式问题上产生递减回报。这些问题类型需要结构性创新。
这对决定如何投资记忆基础设施预算的工程团队有直接影响。如果你的用例主要涉及单跳回忆,RAG 可能足够。如果涉及任何形式的时间推理或个人建模,你需要专用的记忆架构。
对从业者的启示
对于构建 AI 产品的工程团队,LoCoMo 提供了一个具体的、可操作的框架来评估记忆系统。在 LoCoMo 之前,团队通常依赖轶事测试。LoCoMo 提供了生产系统所需的严格性。
基准也作为设计规范。其四种问题类型直接映射到架构要求:单跳需要良好的检索,多跳需要结构化记忆表示,时间需要时间感知索引,开放式需要个人建模。
最重要的是,LoCoMo 将关于 AI 记忆的对话从主观印象转变为客观测量。当供应商声称"出色的记忆能力"时,现在的适当回应是:"你的 LoCoMo 分数是多少?"
结论
LoCoMo 不仅仅是另一个基准。它是对 AI 记忆中最重要的东西的第一次严格测量:跨长期演变对话回忆、推理和综合信息的能力。
MemoryLake 94.03% 的领先分数表明,具有类型化记忆、时间索引和冲突检测的专用记忆架构,在显著程度上优于纯检索方法。性能差距在时间问题上最为明显。
对于 AI 记忆领域,LoCoMo 代表了一个成熟点。我们现在有了评估记忆系统的共享客观语言。问题不再是 AI 是否需要记忆——基准已经明确证明了这一点。问题是如何构建在所有四个维度上都表现良好的记忆系统。