LoCoMo ベンチマーク
会話型AIシステムのメモリー想起能力を測定する業界標準であるLoCoMo(長期コンテキストメモリー)ベンチマークでの包括的な評価。
詳細な 結果
4つの異なるメモリー想起カテゴリーと総合加重スコアでのパフォーマンス。
シングルホップ
単一のメモリーソースから直接回答する質問。
マルチホップ
複数のメモリーエントリにまたがる推論が必要な質問。
時系列
イベントの発生時期や変化に関する時間に敏感な問い合わせ。
オープンドメイン
特定のメモリー手がかりのない一般知識想起。
総合スコア
4カテゴリーの加重平均。
完全な データテーブル
| 製品 | シングルホップ | マルチホップ | 時系列 | オープンドメイン | 総合 |
|---|---|---|---|---|---|
| MemoryLake最優秀 | 96.79% | 91.84% | 91.28% | 85.42% | 94.03% |
| Benchmark 1 | 96.08% | 91.13% | 89.72% | 70.83% | 92.32% |
| Benchmark 2 | 94.93% | 90.43% | 87.95% | 71.88% | 91.21% |
| Benchmark 3 | 90.84% | 81.91% | 77.26% | 75.00% | 85.22% |
| Benchmark 4 | 85.37% | 79.43% | 75.08% | 64.58% | 80.76% |
| Benchmark 5 | 74.91% | 72.34% | 43.61% | 54.17% | 66.67% |
| Benchmark 6 | 68.97% | 61.70% | 58.26% | 50.00% | 64.20% |
深層分析
LoCoMo ベンチマークを理解する
Maharana らによる査読付き論文「Evaluating Very Long-Term Conversational Memory of LLM Agents」に基づく。ACL 2024(第62回計算言語学協会年次大会)で発表。
このベンチマークが重要な理由
既存の会話ベンチマークのほとんどは短いやり取り(5-10ターン)で LLM を評価します。しかし、現実世界の AI アシスタントは数週間から数か月にわたる数十のセッションで対話します。LoCoMo は超長期会話メモリを評価するために特別に設計された初のベンチマークです。300+ ターンと最大35セッションに分散した情報を AI が想起、推論、統合できるかをテストします。
厳密な長期メモリベンチマークがなければ、AI メモリシステムが本当に機能するのか、単に簡単なケースで機能しているように見えるだけなのかを客観的に測定する方法はありません。LoCoMo はこの重要なギャップを埋めます。
データセットの構築と規模
LoCoMo は機械と人間の協力パイプラインを採用:異なるペルソナを持つ2つの LLM ベースの仮想エージェントに現実的な生活シーケンスを表す時間イベントグラフが割り当てられます。メモリとリフレクションモジュールを使用して複数のセッションで会話します。人間のアノテーターが長距離の一貫性を確認・編集します。
4つのコア評価カテゴリ
シングルホップ推論
単一セッションからの直接的な事実検索をテスト。エージェントは会話中に一度だけ言及された特定の情報を見つけて想起する必要があります。
質問例
「Alice が先週の火曜日に訪れたと言っていたレストランは?」
主要な課題: 35+のセッションの中から特定のセッションからの正確な検索が必要で、類似のコンテキストと混同してはなりません。
マルチホップ推論
回答に到達するために2つ以上の別々のセッションからの情報を統合する必要があります。エージェントは異なる会話間で事実を連鎖させる必要があります。
質問例
「セッション12での Alice の転職とセッション24での引っ越しに基づくと、彼女は現在どこで働いていますか?」
主要な課題: クロスセッションの情報統合が必要 — 最も困難な検索タスク。関連する事实が数千トークンの無関係な会話で隔てられている可能性があります。
時間推論
時間順のイベントについての推論能力をテスト — 会話タイムラインの特定のポイントの前、後、または間に何が起こったかを理解。
質問例
「Bob は新しいアパートに引っ越す前と後のどちらで犬を引き取りましたか?」
主要な課題: セッション間でメンタルタイムラインの構築とクエリが必要。ほとんどの LLM は時間タスクで人間との 73% のパフォーマンスギャップを示します。
オープンドメイン知識
明示的に述べられていない外部の世界知識や常識的推論と会話からの情報を統合する必要があります。
質問例
「Alice は来週エッフェル塔を訪れると言っていました。彼女はどの国に旅行しますか?」
主要な課題: メモリ検索と世界知識の統合の境界をテスト — エージェントは何を伝えられたかと何を既に知っているべきかを区別する必要があります。
敵対的テスト(第5カテゴリ)
4つのスコアリングカテゴリ以外に、LoCoMo にはエージェントを騙してハルシネーション回答をさせるよう設計された敵対的な質問が含まれています。これらの質問は会話に基づいて意図的に回答不可能です — 正しい回答は「わかりません」です。
これは現実世界の重要な要件をテストします:AI メモリシステムは記憶の限界を知り、情報を捐造することを拒否する必要があります。ロングコンテキスト LLM は敵対的質問で「重大なハルシネーション」を示します — 本番メモリシステムにとって重大な安全上の懸念です。
評価プロセスとスコアリング
会話取り込み
完全なマルチセッション対話(約300ターン、約9Kトークン、最大35セッション)がメモリシステムにインデックスとストレージのために提供されます。
質問提示
4つのカテゴリ(シングルホップ、マルチホップ、時間、オープンドメイン)の約1,500+の質問が出題されます。各質問には会話から導出され人間のアノテーターが検証した正解があります。
メモリ検索と回答
システムは関連するメモリを検索し、回答を生成する必要があります。これは全パイプラインをテストします:取り込み → 保存 → 検索 → 推論 → 生成。
マルチメトリクスコアリング
回答は F1 スコア(正解とのトークン重複)、BLEU-1(ユニグラム精度)、LLM-as-a-Judge(GPT-4が意味的正確さを評価)で評価されます。総合スコアは加重複合です。
なぜ難しいのか:技術的課題
コンテキストウィンドウの限界
9K+ トークンは多くの LLM の有効なアテンション範囲を超えます。会話の最初の情報は質問される頃には「忘れられ」ていることが多いです。
時間的一貫性
イベントはシミュレートされた数週間/数か月にわたる35セッションで発生します。明示的なタイムスタンプなしに正しい時間順序を維持するのは非常に困難です。
クロスセッション統合
マルチホップ質問はセッション3の事实とセッション28の事实をつなげる必要があります — 数千トークンの無関係な会話で隔てられた情報です。
ハルシネーション耐性
敵対的質問は、システムが議論されたことのないことについてもっともらしい回答を捐造するかどうかをテストします。ほとんどの LLM はここで大幅に失敗します。
意味的曖昧性
同じトピックが進化するコンテキストでセッション間で異なる議論がされる可能性があり、システムは矛盾する情報や更新された情報を解決する必要があります。
56% の人間とのギャップ
最良の RAG アプローチでさえこのベンチマークで人間のパフォーマンスより 56% 遅れており、長期会話メモリの根本的な困難さを示しています。
主な結論:MemoryLake の LoCoMo での実績
- MemoryLake は総合 94.03% を達成 — LoCoMo ベンチマークで史上最高のスコアで、すべての公開されたメモリシステムを上回りました。
- シングルホップリコール 96.79% は、長い会話でほぼ完璧な事実検索を実現し、人間レベルのパフォーマンスに近づいています。
- マルチホップ推論 91.84% は、MemoryLake がセッション間で情報を効果的に連鎖できることを示しています — ほとんどのシステムが失敗する最も困難なカテゴリです。
- 時間推論 91.28% は、MemoryLake のカレンダー対応インデックスと時間イベントグラフ構築を検証します。
- オープンドメイン 85.42% はこの分野で最高で、会話メモリと世界知識の強力な統合を示しています。
- これらの結果は、データ漏洩なし、質問固有のチューニングなし、完全な再現性のもとでの厳密な実験設定で達成されています。
参考文献:Maharana, A., Lee, D. H., Tulyakov, S., Bansal, M., Barbieri, F., & Fang, Y. (2024). "Evaluating Very Long-Term Conversational Memory of LLM Agents." In Proceedings of ACL 2024. ベンチマーク結果を見る →