工程与开发停止因填充代理历史而导致的令牌膨胀

通过将代理历史填充到每个提示中来停止令牌成本膨胀

Q: 检索会遗漏重要上下文吗？

LoCoMo 基准测试 #1 在长时间回忆上准确率为 94.03% — 排名最高的结构化检索。

Q: 成本比较？

通常在长历史规模上减少 10-100 倍的成本。

Q: 自托管？

是的 — 企业级部署在您的 VPC 中。

生产代理应用程序很快发现同样的陷阱：将对话历史填充到每个提示中会比使用更快地推动令牌成本和延迟。MemoryLake 提取一个与当前任务相关的紧凑记忆块——相同的回忆，令牌的分数。

通过将代理历史填充到每个提示中来停止令牌成本膨胀

免费开始使用

永久免费 · 无需信用卡

问题：令牌成本与填充历史成比例

一个拥有三个月代理历史的用户有 200K 的上下文令牌。将其填充到每次调用中会在每次交互中增加推理成本和延迟。切换到摘要记忆会失去保真度。正确的答案是结构化检索，而不是填充或摘要。

MemoryLake 如何减少令牌膨胀

基于令牌预算的检索

仅提取与当前任务相关的记忆，大小适合您的预算。

类型化记忆胜过平面历史

检索事实、事件或技能——而不是原始记录。

相较于填充的 10,000 倍规模

将数百万个历史令牌压缩为毫秒级检索。

与提示缓存兼容

检索的块插入可缓存的系统消息中。

免费开始使用

永久免费 · 无需信用卡

如何实现令牌高效的代理记忆

连接 — 在提示构建时用 MemoryLake 检索替换历史填充。
结构 — 每次交互写入类型化记忆。
重用 — 每个提示检索一个基于令牌预算的记忆块。

之前与之后：令牌使用情况

	Stuffed history	MemoryLake retrieval
Token cost per long-history call	30K+	<2K
Latency from giant prompt	Slow first token	Fast
Memory of months-old context	Truncated or summarized	Retrievable
Prompt cache hit rate	Drops	Maintained

适合谁

令牌成本增长速度超过用户数量的生产代理应用程序的工程团队——并且考虑过但因质量原因拒绝切换到摘要记忆。

常见问题

检索会遗漏重要上下文吗？

LoCoMo 基准测试 #1 在长时间回忆上准确率为 94.03% — 排名最高的结构化检索。

成本比较？

通常在长历史规模上减少 10-100 倍的成本。

自托管？

是的 — 企业级部署在您的 VPC 中。

全部场景免费开始使用

通过将代理历史填充到每个提示中来停止令牌成本膨胀

问题：令牌成本与填充历史成比例

MemoryLake 如何减少令牌膨胀

基于令牌预算的检索

类型化记忆胜过平面历史

相较于填充的 10,000 倍规模

与提示缓存兼容

如何实现令牌高效的代理记忆

之前与之后：令牌使用情况

适合谁

相关场景

常见问题

检索会遗漏重要上下文吗？

成本比较？

自托管？