Benchmark LoCoMo

Evaluación exhaustiva en el benchmark LoCoMo (Memoria de Contexto Largo), el estándar de la industria para medir la recuperación de memoria en sistemas de IA conversacional.

94.03%

MemoryLake global

Puntuación más alta entre todos los productos

Resultados detallados

Rendimiento en cuatro categorías distintas de recuperación de memoria más la puntuación global ponderada.

Salto único

MemoryLake96.79%

Benchmark 196.08%

Benchmark 294.93%

Benchmark 390.84%

Benchmark 485.37%

Benchmark 574.91%

Benchmark 668.97%

Preguntas de respuesta directa desde una sola fuente de memoria.

Salto múltiple

MemoryLake91.84%

Benchmark 191.13%

Benchmark 290.43%

Benchmark 381.91%

Benchmark 479.43%

Benchmark 572.34%

Benchmark 661.7%

Preguntas que requieren razonamiento a través de múltiples entradas de memoria.

Temporal

MemoryLake91.28%

Benchmark 189.72%

Benchmark 287.95%

Benchmark 377.26%

Benchmark 475.08%

Benchmark 543.61%

Benchmark 658.26%

Consultas sensibles al tiempo sobre cuándo ocurrieron o cambiaron los eventos.

Dominio abierto

MemoryLake85.42%

Benchmark 170.83%

Benchmark 271.88%

Benchmark 375%

Benchmark 464.58%

Benchmark 554.17%

Benchmark 650%

Recuperación de conocimiento general sin pistas de memoria específicas.

Puntuación global

MemoryLake94.03%

Benchmark 192.32%

Benchmark 291.21%

Benchmark 385.22%

Benchmark 480.76%

Benchmark 566.67%

Benchmark 664.2%

Media ponderada de las cuatro categorías.

Tabla de datos completa

Producto	Salto único	Salto múltiple	Temporal	Dominio abierto	General
MemoryLakeMEJOR	96.79%	91.84%	91.28%	85.42%	94.03%
Benchmark 1	96.08%	91.13%	89.72%	70.83%	92.32%
Benchmark 2	94.93%	90.43%	87.95%	71.88%	91.21%
Benchmark 3	90.84%	81.91%	77.26%	75.00%	85.22%
Benchmark 4	85.37%	79.43%	75.08%	64.58%	80.76%
Benchmark 5	74.91%	72.34%	43.61%	54.17%	66.67%
Benchmark 6	68.97%	61.70%	58.26%	50.00%	64.20%

Análisis Profundo

Entendiendo el Benchmark LoCoMo

Basado en el artículo revisado por pares "Evaluating Very Long-Term Conversational Memory of LLM Agents" de Maharana et al., publicado en ACL 2024 (62ª Reunión Anual de la Asociación de Lingüística Computacional).

Por qué importa este benchmark

La mayoría de los benchmarks conversacionales existentes evalúan LLMs en intercambios cortos (5-10 turnos). Sin embargo, los asistentes de IA del mundo real interactúan en docenas de sesiones durante semanas o meses. LoCoMo es el primer benchmark diseñado específicamente para evaluar la memoria conversacional a muy largo plazo — probando si una IA puede recordar, razonar y sintetizar información dispersa en 300+ turnos y hasta 35 sesiones.

Sin benchmarks rigurosos de memoria a largo plazo, no hay forma de medir objetivamente si un sistema de memoria de IA realmente funciona — o simplemente parece funcionar en casos triviales. LoCoMo llena esta brecha crítica.

Construcción y escala del dataset

LoCoMo emplea un pipeline colaborativo máquina-humano: dos agentes virtuales basados en LLM con personas distintas reciben grafos de eventos temporales que representan secuencias de vida realistas. Conversan a través de múltiples sesiones con módulos de memoria y reflexión. Los anotadores humanos verifican y editan las conversaciones para consistencia a largo plazo.

~300

Turnos de diálogo por conversación

~9,000

Tokens por conversación

Hasta 35

Sesiones por diálogo

~1,500+

Pares de evaluación QA

Cuatro Categorías de Evaluación Principales

Razonamiento de Un Salto

Prueba la recuperación factual directa de una sola sesión. El agente debe localizar y recordar información específica mencionada una vez durante una conversación.

Pregunta de Ejemplo

"¿Qué restaurante mencionó Alice que visitó el martes pasado?"

Desafío Clave: Requiere recuperación precisa de una sesión específica entre 35+ sesiones sin confundir contextos similares.

Razonamiento Multi-salto

Requiere sintetizar información de dos o más sesiones separadas para llegar a la respuesta. El agente debe encadenar hechos a través de diferentes conversaciones.

Pregunta de Ejemplo

"Basado en el cambio de trabajo de Alice en la sesión 12 y su reubicación en la sesión 24, ¿dónde trabaja actualmente?"

Desafío Clave: Exige integración de información entre sesiones — la tarea de recuperación más difícil, ya que los hechos relevantes pueden estar separados por miles de tokens.

Razonamiento Temporal

Prueba la capacidad de razonar sobre eventos ordenados temporalmente — entender qué sucedió antes, después o entre puntos específicos en la línea temporal conversacional.

Pregunta de Ejemplo

"¿Bob adoptó a su perro antes o después de mudarse al nuevo apartamento?"

Desafío Clave: Requiere construir y consultar una línea temporal mental entre sesiones. La mayoría de los LLMs muestran una brecha de rendimiento del 73% vs. humanos en tareas temporales.

Conocimiento de Dominio Abierto

Requiere integrar información de la conversación con conocimiento del mundo externo o razonamiento de sentido común no declarado explícitamente.

Pregunta de Ejemplo

"Alice mencionó que va a visitar la Torre Eiffel la próxima semana. ¿A qué país viaja?"

Desafío Clave: Prueba el límite entre la recuperación de memoria y la integración de conocimiento del mundo — el agente debe distinguir lo que se le dijo vs. lo que ya debería saber.

Prueba Adversaria (5ª Categoría)

Más allá de las cuatro categorías puntuadas, LoCoMo incluye preguntas adversarias diseñadas para engañar a los agentes para que alucinen respuestas. Estas preguntas son intencionalmente irrespondibles basadas en la conversación — la respuesta correcta es decir "No lo sé."

Esto prueba un requisito crítico del mundo real: un sistema de memoria de IA debe conocer los límites de lo que recuerda y negarse a fabricar información. Los LLMs de contexto largo muestran "alucinaciones significativas" en preguntas adversarias — una preocupación de seguridad importante para sistemas de memoria en producción.

Proceso de Evaluación y Puntuación

Ingestión de Conversación

El diálogo multi-sesión completo (~300 turnos, ~9K tokens, hasta 35 sesiones) se proporciona al sistema de memoria para indexación y almacenamiento.

Presentación de Preguntas

Se plantean ~1,500+ preguntas de las cuatro categorías (un salto, multi-salto, temporal, dominio abierto). Cada pregunta tiene una respuesta verdadera derivada de la conversación y verificada por anotadores humanos.

Recuperación de Memoria y Respuesta

El sistema debe recuperar memorias relevantes y generar una respuesta. Esto prueba el pipeline completo: ingestión → almacenamiento → recuperación → razonamiento → generación.

Puntuación Multi-métrica

Las respuestas se evalúan usando F1 score (superposición de tokens con la verdad fundamental), BLEU-1 (precisión de unigramas) y LLM-como-Juez (GPT-4 evalúa la corrección semántica). La puntuación general es un compuesto ponderado.

Por qué es difícil: Desafíos Técnicos

Límites de Ventana de Contexto

9K+ tokens exceden el rango de atención efectiva de muchos LLMs. La información al inicio de las conversaciones a menudo se "olvida" para cuando se hace una pregunta.

Coherencia Temporal

Los eventos ocurren en 35 sesiones durante semanas/meses simulados. Mantener el orden temporal correcto sin marcas de tiempo explícitas es extremadamente desafiante.

Síntesis Entre Sesiones

Las preguntas multi-salto requieren conectar hechos de la sesión 3 con hechos de la sesión 28 — información separada por miles de tokens de conversación no relacionada.

Resistencia a Alucinaciones

Las preguntas adversarias prueban si el sistema fabrica respuestas que suenan plausibles para cosas nunca discutidas. La mayoría de los LLMs fallan significativamente aquí.

Ambigüedad Semántica

El mismo tema puede discutirse de manera diferente en las sesiones con contexto en evolución, requiriendo que el sistema resuelva información conflictiva o actualizada.

Brecha del 56% con Humanos

Incluso los mejores enfoques RAG están 56% por detrás del rendimiento humano en este benchmark, demostrando la dificultad fundamental de la memoria conversacional a largo plazo.

Conclusiones Clave: MemoryLake en LoCoMo

MemoryLake logra 94.03% general — la puntuación más alta jamás registrada en el benchmark LoCoMo, superando todos los sistemas de memoria publicados.
La recuperación de un salto al 96.79% demuestra una recuperación factual casi perfecta en conversaciones largas, acercándose al rendimiento humano.
El razonamiento multi-salto al 91.84% muestra que MemoryLake puede encadenar efectivamente información entre sesiones — la categoría más difícil donde la mayoría de los sistemas fallan.
El razonamiento temporal al 91.28% valida la indexación consciente del calendario y la construcción del grafo de eventos temporales de MemoryLake.
El dominio abierto al 85.42% es el más alto del campo, demostrando una fuerte integración de la memoria conversacional con el conocimiento del mundo.
Estos resultados se logran bajo condiciones experimentales estrictas sin fuga de datos, sin ajuste específico por pregunta y con total reproducibilidad.

Referencia: Maharana, A., Lee, D. H., Tulyakov, S., Bansal, M., Barbieri, F., & Fang, Y. (2024). "Evaluating Very Long-Term Conversational Memory of LLM Agents." In Proceedings of ACL 2024. Ver nuestros resultados de benchmark →