详细 结果
四个不同记忆召回类别加综合加权评分的性能表现。
单跳
从单一记忆源直接回答问题。
多跳
需要跨多个记忆条目推理的问题。
时序
关于事件发生或变化时间的时间敏感查询。
开放域
无特定记忆线索的通用知识召回。
综合评分
四个类别的加权平均。
完整 数据表
| 产品 | 单跳 | 多跳 | 时序 | 开放域 | 综合 |
|---|---|---|---|---|---|
| MemoryLake最佳 | 96.79% | 91.84% | 91.28% | 85.42% | 94.03% |
| Benchmark 1 | 96.08% | 91.13% | 89.72% | 70.83% | 92.32% |
| Benchmark 2 | 94.93% | 90.43% | 87.95% | 71.88% | 91.21% |
| Benchmark 3 | 90.84% | 81.91% | 77.26% | 75.00% | 85.22% |
| Benchmark 4 | 85.37% | 79.43% | 75.08% | 64.58% | 80.76% |
| Benchmark 5 | 74.91% | 72.34% | 43.61% | 54.17% | 66.67% |
| Benchmark 6 | 68.97% | 61.70% | 58.26% | 50.00% | 64.20% |
深入解析
理解LoCoMo 基准测试
基于 Maharana 等人在 ACL 2024(第62届计算语言学协会年会)上发表的同行评审论文“Evaluating Very Long-Term Conversational Memory of LLM Agents”。
为什么这个基准测试很重要
现有的大多数对话基准测试仅评估 LLM 在短对话(5-10 轮)中的表现。然而,现实世界的 AI 助手需要在数周或数月内跨数十个会话进行交互。LoCoMo 是首个专门设计用于评估超长期对话记忆的基准测试 — 测试 AI 能否召回、推理和综合分散在 300+ 轮和最多 35 个会话中的信息。
没有严格的长期记忆基准测试,就无法客观地衡量 AI 记忆系统是否真正有效 — 还是只在简单场景下看似有效。LoCoMo 填补了这一关键空白。
数据集构建与规模
LoCoMo 采用机器-人类协作流水线:两个具有不同人设的 LLM 虚拟智能体被分配代表现实生活序列的时间事件图。它们在多个会话中使用记忆和反思模块进行对话。然后由人工标注员验证和编辑对话以确保长程一致性。
四大核心评估类别
单跳推理
测试从单个会话中的直接事实检索。智能体必须定位并召回对话中只提到过一次的特定信息。
示例问题
“Alice 提到她上周二去了哪家餐厅?”
关键挑战: 需要在 35+ 个会话中从特定会话中精确检索,不能混淆类似上下文。
多跳推理
需要综合来自两个或更多独立会话的信息来得出答案。智能体必须在不同对话之间串联事实。
示例问题
“根据 Alice 在第 12 次会话中的工作变动和第 24 次会话中的搬迁,她现在在哪里工作?”
关键挑战: 需要跨会话信息整合 — 这是最困难的检索任务,因为相关事实可能被数千个 Token 的无关对话分隔。
时间推理
测试对时间顺序事件的推理能力 — 理解在对话时间线上特定点之前、之后或之间发生了什么。
示例问题
“Bob 是在搬到新公寓之前还是之后领养了他的狗?”
关键挑战: 需要跨会话构建和查询时间线。大多数 LLM 在时间任务上与人类的表现差距达 73%。
开放域知识
需要将对话中的信息与未明确陈述的外部世界知识或常识推理相结合。
示例问题
“Alice 提到她下周要去参观埃菲尔铁塔。她要去哪个国家?”
关键挑战: 测试记忆检索和世界知识整合之间的边界 — 智能体必须区分被告知的内容和应该已知的内容。
对抗性测试(第5类)
除了四个评分类别外,LoCoMo 还包含旨在诱导智能体产生幻觉回答的对抗性问题。这些问题根据对话内容是故意无法回答的 — 正确的回应是说“我不知道”。
这测试了一个关键的现实世界需求:AI 记忆系统必须知道其记忆的边界并拒绝捐造信息。长上下文 LLM 在对抗性问题上表现出“显著的幻觉” — 这是生产记忆系统的重大安全隐患。
评估流程与评分
对话摄入
将完整的多会话对话(约 300 轮、约 9K Token、最多 35 个会话)提供给记忆系统进行索引和存储。
问题呈现
提出四个类别(单跳、多跳、时间、开放域)的 1,500+ 个问题。每个问题都有从对话中得出的标准答案,并经人工标注员验证。
记忆检索与回答
系统必须检索相关记忆并生成答案。这测试了完整的流水线:摄入 → 存储 → 检索 → 推理 → 生成。
多指标评分
使用 F1 分数(与标准答案的 Token 重叠)、BLEU-1(单元精确度)和 LLM 作为评审(GPT-4 评估语义正确性)进行评估。总分是加权综合得分。
为什么很难:技术挑战
上下文窗口限制
9K+ Token 超过了许多 LLM 的有效注意力范围。对话开头的信息在提问时往往已被“遗忘”。
时间一致性
事件发生在跨越模拟数周/数月的 35 个会话中。在没有明确时间戳的情况下维持正确的时间顺序极具挑战性。
跨会话综合
多跳问题需要将第 3 次会话的事实与第 28 次会话的事实联系起来 — 信息被数千个无关对话的 Token 分隔。
抗幻觉能力
对抗性问题测试系统是否会为从未讨论过的事情捐造听起来合理的答案。大多数 LLM 在此明显失败。
语义模糊性
同一主题可能在不同会话中以不同方式讨论,上下文不断演变,需要系统解决冲突或更新的信息。
56% 人类差距
即使是最好的 RAG 方法在该基准测试上也比人类表现落后 56%,证明了长期对话记忆的根本困难。
关键要点:MemoryLake 在 LoCoMo 上的表现
- MemoryLake 综合得分 94.03% — LoCoMo 基准测试有史以来的最高分数,超越所有已发表的记忆系统。
- 单跳召回率 96.79% 展示了跨长对话的接近完美的事实检索,达到接近人类水平的表现。
- 多跳推理 91.84% 表明 MemoryLake 能有效地跨会话串联信息 — 这是大多数系统失败的最困难类别。
- 时间推理 91.28% 验证了 MemoryLake 的日历感知索引和时间事件图构建能力。
- 开放域 85.42% 是该领域最高,展示了对话记忆与世界知识的强大整合能力。
- 这些结果是在严格的实验设置下实现的,无数据泄漏、无针对问题的微调、完全可复现。
参考文献:Maharana, A., Lee, D. H., Tulyakov, S., Bansal, M., Barbieri, F., & Fang, Y. (2024). "Evaluating Very Long-Term Conversational Memory of LLM Agents." In Proceedings of ACL 2024. 查看我们的基准测试结果 →