LoCoMo 벤치마크
대화형 AI 시스템의 메모리 회상 능력을 측정하는 업계 표준인 LoCoMo(장기 컨텍스트 메모리) 벤치마크에 대한 종합 평가.
상세 결과
4개의 개별 메모리 회상 카테고리와 종합 가중 점수에서의 성능.
싱글 홉
단일 메모리 소스에서 직접 답변하는 질문.
멀티 홉
여러 메모리 항목에 걸친 추론이 필요한 질문.
시간 순서
이벤트가 발생하거나 변경된 시점에 대한 시간에 민감한 쿼리.
오픈 도메인
특정 메모리 단서가 없는 일반 지식 회상.
종합 점수
4개 카테고리의 가중 평균.
전체 데이터 테이블
| 제품 | 싱글 홉 | 멀티 홉 | 시간 순서 | 오픈 도메인 | 종합 |
|---|---|---|---|---|---|
| MemoryLake최우수 | 96.79% | 91.84% | 91.28% | 85.42% | 94.03% |
| Benchmark 1 | 96.08% | 91.13% | 89.72% | 70.83% | 92.32% |
| Benchmark 2 | 94.93% | 90.43% | 87.95% | 71.88% | 91.21% |
| Benchmark 3 | 90.84% | 81.91% | 77.26% | 75.00% | 85.22% |
| Benchmark 4 | 85.37% | 79.43% | 75.08% | 64.58% | 80.76% |
| Benchmark 5 | 74.91% | 72.34% | 43.61% | 54.17% | 66.67% |
| Benchmark 6 | 68.97% | 61.70% | 58.26% | 50.00% | 64.20% |
심층 분석
LoCoMo 벤치마크 이해하기
Maharana 등이 ACL 2024(제62회 컴퓨터 언어학 협회 연례 회의)에서 발표한 동료 심사 논문 "Evaluating Very Long-Term Conversational Memory of LLM Agents"에 기반.
이 벤치마크가 중요한 이유
기존의 대부분 대화 벤치마크는 짧은 교환(5-10턴)에서 LLM을 평가합니다. 그러나 현실 세계의 AI 어시스턴트는 수주에서 수개월에 걸쳐 수십 개의 세션에서 상호작용합니다. LoCoMo는 초장기 대화 메모리를 평가하기 위해 특별히 설계된 최초의 벤치마크입니다 — 300+ 턴과 최대 35개 세션에 분산된 정보를 AI가 회상, 추론, 통합할 수 있는지 테스트합니다.
엄격한 장기 메모리 벤치마크 없이는 AI 메모리 시스템이 정말로 작동하는지 — 단순한 경우에만 작동하는 것처럼 보이는지를 객관적으로 측정할 방법이 없습니다. LoCoMo는 이 중요한 격차를 메웁니다.
데이터셋 구축 및 규모
LoCoMo는 기계-인간 협력 파이프라인을 사용합니다: 서로 다른 페르소나를 가진 2개의 LLM 기반 가상 에이전트에 현실적인 생활 시퀀스를 나타내는 시간 이벤트 그래프가 할당됩니다. 메모리와 리플렉션 모듈을 사용하여 여러 세션에서 대화합니다. 인간 어노테이터가 장거리 일관성을 검증하고 편집합니다.
4가지 핵심 평가 카테고리
싱글홀 추론
단일 세션에서의 직접적인 사실 검색을 테스트합니다. 에이전트는 대화 중 한 번 언급된 특정 정보를 찾아 회상해야 합니다.
예시 질문
"Alice가 지난 화요일에 방문했다고 언급한 레스토랑은?"
핵심 과제: 35+개 세션 중 특정 세션에서의 정확한 검색이 필요하며, 유사한 컨텍스트와 혼동해서는 안 됩니다.
멀티홀 추론
답에 도달하기 위해 2개 이상의 별도 세션에서 정보를 통합해야 합니다. 에이전트는 서로 다른 대화에서 사실을 연결해야 합니다.
예시 질문
"Alice의 세션 12에서의 직장 변경과 세션 24에서의 이전을 바탕으로, 그녀는 현재 어디에서 일하나요?"
핵심 과제: 크로스 세션 정보 통합이 필요 — 관련 사실이 수천 토큰의 무관한 대화로 분리될 수 있는 가장 어려운 검색 작업입니다.
시간 추론
시간 순서대로 정렬된 이벤트에 대한 추론 능력을 테스트 — 대화 타임라인의 특정 시점 전, 후 또는 사이에 어떤 일이 일어났는지 이해.
예시 질문
"Bob은 새 아파트로 이사하기 전에 개를 입양했나요, 아니면 이후에?"
핵심 과제: 세션 간 맨털 타임라인의 구축과 쿼리가 필요합니다. 대부분의 LLM은 시간 작업에서 인간과 73%의 성능 격차를 보입니다.
오픈 도메인 지식
명시적으로 언급되지 않은 외부 세계 지식이나 상식적 추론과 대화의 정보를 통합해야 합니다.
예시 질문
"Alice는 다음 주에 에펠탑을 방문한다고 했습니다. 그녀는 어느 나라로 여행하나요?"
핵심 과제: 메모리 검색과 세계 지식 통합의 경계를 테스트 — 에이전트는 무엇을 전달받았는지와 무엇을 이미 알고 있어야 하는지를 구별해야 합니다.
적대적 테스트 (5번째 카테고리)
4개의 점수 카테고리 외에, LoCoMo에는 에이전트를 속여 환각 답변을 하도록 설계된 적대적 질문이 포함됩니다. 이 질문들은 대화를 기반으로 의도적으로 답변 불가능합니다 — 올바른 응답은 "모르겠습니다"입니다.
이것은 현실 세계의 중요한 요구사항을 테스트합니다: AI 메모리 시스템은 기억의 한계를 알고 정보를 날조하는 것을 거부해야 합니다. 롱 컨텍스트 LLM은 적대적 질문에서 "심각한 환각"을 보입니다 — 프로덕션 메모리 시스템에 대한 주요 안전 우려입니다.
평가 프로세스 및 점수
대화 수집
전체 멀티 세션 대화(약 300턴, 약 9K 토큰, 최대 35개 세션)가 인덱싱 및 저장을 위해 메모리 시스템에 제공됩니다.
질문 제시
4개 카테고리(싱글홀, 멀티홀, 시간, 오픈 도메인)의 약 1,500+개 질문이 제시됩니다. 각 질문에는 대화에서 도출되고 인간 어노테이터가 검증한 정답이 있습니다.
메모리 검색 및 응답
시스템은 관련 메모리를 검색하고 답변을 생성해야 합니다. 이것은 전체 파이프라인을 테스트합니다: 수집 → 저장 → 검색 → 추론 → 생성.
멀티 메트릭 점수
답변은 F1 점수(정답과의 토큰 중복), BLEU-1(유니그램 정밀도), LLM-as-a-Judge(GPT-4가 의미적 정확성 평가)로 평가됩니다. 종합 점수는 가중 복합입니다.
왜 어려운가: 기술적 과제
컨텍스트 윈도우 한계
9K+ 토큰은 많은 LLM의 효과적인 어텐션 범위를 초과합니다. 대화 초반의 정보는 질문할 때쯤 종종 "잊혀집니다".
시간적 일관성
이벤트는 시뮬레이션된 수주/수개월에 걸쳐 35개 세션에서 발생합니다. 명시적 타임스탬프 없이 올바른 시간 순서를 유지하는 것은 극히 어렵습니다.
크로스 세션 통합
멀티홀 질문은 세션 3의 사실과 세션 28의 사실을 연결해야 합니다 — 수천 토큰의 무관한 대화로 분리된 정보입니다.
환각 저항성
적대적 질문은 시스템이 논의된 적 없는 것에 대해 그럴듯한 답변을 날조하는지 테스트합니다. 대부분의 LLM은 여기서 크게 실패합니다.
의미적 모호성
같은 주제가 진화하는 컨텍스트로 세션 간에 다르게 논의될 수 있으며, 시스템은 충돌하거나 업데이트된 정보를 해결해야 합니다.
56% 인간 격차
최고의 RAG 접근방식도 이 벤치마크에서 인간 성능보다 56% 뒤쳐져 있으며, 장기 대화 메모리의 근본적인 어려움을 보여줍니다.
핵심 요약: MemoryLake의 LoCoMo 성과
- MemoryLake는 종합 94.03%를 달성 — LoCoMo 벤치마크에서 역대 최고 점수로, 모든 공개된 메모리 시스템을 능가했습니다.
- 싱글홀 리콜 96.79%는 긴 대화에서 거의 완벽한 사실 검색을 보여주며, 인간 수준의 성능에 근접합니다.
- 멀티홀 추론 91.84%는 MemoryLake가 세션 간 정보를 효과적으로 연결할 수 있음을 보여줍니다 — 대부분의 시스템이 실패하는 가장 어려운 카테고리입니다.
- 시간 추론 91.28%는 MemoryLake의 캘린더 인식 인덱싱과 시간 이벤트 그래프 구축을 검증합니다.
- 오픈 도메인 85.42%는 이 분야 최고이며, 대화 메모리와 세계 지식의 강력한 통합을 보여줍니다.
- 이러한 결과는 데이터 유출 없이, 질문별 튜닝 없이, 완전한 재현성을 갖춘 엄격한 실험 환경에서 달성되었습니다.
참고 문헌: Maharana, A., Lee, D. H., Tulyakov, S., Bansal, M., Barbieri, F., & Fang, Y. (2024). "Evaluating Very Long-Term Conversational Memory of LLM Agents." In Proceedings of ACL 2024. 벤치마크 결과 보기 →