理解 Token 经济学
在量化节省之前,我们需要理解 token 经济。大型语言模型以 token 为单位处理文本——英文中大约每四个字符一个 token,或大约一个单词的四分之三。进入模型的每个 token(输入 token)和模型生成的每个 token(输出 token)都有成本。
截至 2025 年底,GPT-4 级别的模型每百万输入 token 收费 5 到 60 美元,每百万输出 token 收费 15 到 200 美元,具体取决于提供商和层级。Claude、Gemini 和其他前沿模型在类似范围内运作。即使是像 GPT-4o Mini 这样每百万输入 token 仅 0.15 美元的"便宜"模型,在每天处理数百万请求时也会迅速累积。
关键洞察是:输入 token 几乎总是远远超过输出 token。一个典型的企业 AI 交互可能涉及 3,000 到 8,000 个输入 token(系统提示、上下文、对话历史、用户消息),但响应中只有 200 到 800 个输出 token。这意味着成本结构由您输入模型的内容主导,而非模型输出的内容。
这种不对称性正是记忆如此重要的原因。如果您能在保持或提高响应质量的同时将输入 token 减少 60% 到 91%,那么您就从根本上改变了 AI 部署的经济学。
Token 经济还有一个隐藏的乘数效应:上下文窗口利用率。当您用冗余信息填充上下文窗口时,不仅要为这些 token 付费——还会降低模型性能。来自 Anthropic 等的研究表明,当大部分上下文无关时,模型在更长上下文下表现更差。所以您付出更多却得到更差的结果,这是双重糟糕的经济结果。
上下文窗口陷阱
上下文窗口陷阱是现代 AI 架构中最昂贵的错误。它是这样运作的:用户与您的 AI 应用有持续的关系。他们有偏好、历史和累积的重要上下文。没有记忆,您有两个选择——两个都很糟糕。
选项 A 是什么都不包含,每次对话都重新开始。AI 给出通用的、非个性化的响应。用户满意度下降。参与度降低。AI 产品的商业价值减弱。这是"失忆方法",虽然每次调用成本低,但在失去的价值方面成本很高。
选项 B 是在每次调用中注入您所知的关于用户的一切。您在系统提示中塞入用户档案、偏好摘要、对话历史、相关文档和行为模式。AI 给出更好的响应,但每次调用的成本是应有的 5 到 20 倍,因为您在一遍又一遍地重新传输相同的信息。
大多数组织选择选项 B,成本是惊人的。考虑一个每天处理 50,000 个对话的客户支持 AI。如果每个对话平均 8 轮,每轮注入 4,000 个自上次以来未变化的上下文 token,那就是每天 16 亿个冗余 token。按每百万 token 10 美元计,这是每天 16,000 美元的纯粹浪费——每年 584 万美元花在模型已经见过的信息上。
随着应用的成熟,上下文窗口陷阱会变得更严重。早期,您需要注入的上下文很少,所以成本可控。但随着积累更多用户数据、更多对话历史和更多组织知识,上下文负载增长。成本与数据丰富度线性增长,产生了一种不鼓励构建更好、更个性化 AI 体验的反向激励。
这从根本上是一个设计问题,而非模型问题。来自 Anthropic(200K token)和 Google(2M token)等提供商的更大上下文窗口并不能解决它——它们只是提高了浪费的上限。解决方案不是更大的窗口,而是更智能的记忆。
计算真实成本
让我们建立一个具体的成本模型。我们将使用中等规模的企业 AI 部署作为参考:一个面向客户的助手,每月处理 100,000 个会话,平均每个会话 6 轮。
没有记忆时,每轮需要注入以下上下文:系统提示和角色配置约 800 个 token,用户档案和偏好摘要约 1,200 个 token,相关对话历史约 1,500 个 token,领域特定知识约 500 个 token,以及实际用户消息平均 100 个 token。总计约 4,100 个输入 token 每轮。
一个月内,即 100,000 个会话乘以 6 轮乘以 4,100 个 token,等于 24.6 亿个输入 token。按每百万 token 10 美元计,即每月 24,600 美元或每年 295,200 美元,仅输入 token 成本。
关键观察是:在一个会话的 6 轮中,系统提示从不改变(800 个 token 重复 6 次),用户档案很少改变(1,200 个 token 重复 6 次),领域知识保持不变(500 个 token 重复 6 次)。只有对话历史自然增长,即便如此,当先前的轮次被重新包含时也有大量重复。
每轮真正独特的、非冗余的信息约为 100 个 token 的新用户输入加上大约 200 个 token 的新上下文。即 300 个 token 的新信息对比 4,100 个传输的 token——93% 的冗余率。
跨会话的浪费更严重。一个已有 20 次先前会话的回访用户,其相同的档案被注入 120 次(20 个会话乘以 6 轮)。在会话 1 中建立的偏好在每一次后续交互中都被重新传输。在一年内,仅为这一个用户重新传输已知信息的总成本可能超过 50 美元。
乘以 100,000 月活跃用户,上下文冗余的年度成本接近 500 万美元。这些钱花在告诉 AI 它几分钟、几小时或几个月前就被告知的事情上。
医生类比
要理解当前状况有多荒谬,请考虑这个类比。想象您去看医生做一个例行的五分钟检查。但在医生能看您之前,他们必须阅读您从出生起的完整病史——每次疫苗接种、每次血液检查、每次投诉、每种开过的药物。
您的医生在五分钟的预约前花 45 分钟阅读数百页记录。他们这样做不是因为忘了您是谁,而是因为医疗系统在每次就诊后销毁了他们对您的所有记忆。每次预约、每位医生、每一次——都必须从头重新阅读完整历史。
现在将此乘以医生每天看的每位患者。医生每天不是看 30 位患者,而是只能看 5 位,因为 90% 的时间花在重新阅读他们已经知道的信息上。医院向您收取一小时预约的费用,即使您只需要五分钟的实际关注。
这正是没有记忆的 AI 系统中发生的事情。"医生"(LLM)有能力记住和建立在先前知识之上,但"医院系统"(您的应用架构)强制失忆。每次交互都以大量数据倾倒开始,消耗时间、金钱和注意力——其中大部分是冗余的。
好的医疗系统通过病历解决这个问题——一个持久的、结构化的记录,医生可以快速参考。他们不重新阅读整个历史;他们查看相关内容。一条注释说"患者对青霉素过敏"只写一次,这个事实在每次未来就诊中持续存在,无需重新声明。
AI 记忆基础设施的工作方式相同。不是重新注入用户的完整历史,而是将其存储在持久化记忆层中。AI 仅检索与当前交互相关的内容,就像医生浏览病历的相关部分一样。成本从"阅读整个历史"降至"查找重要内容"。
记忆如何改变等式
记忆基础设施从根本上重构了成本等式。不再在每次调用时传输 AI 需要知道的一切,而是将持久化上下文存储在记忆层中,每次交互只检索增量——新的或相关的信息。
节省来自三个机制。第一,消除冗余上下文。用户的档案、偏好和已建立的事实只存储一次,由记忆系统引用,不需要作为原始 token 重新注入。第二,智能检索。不是包含所有对话历史,记忆系统只检索与当前查询相关的轮次和事实。如果用户询问计费问题,系统提取与计费相关的记忆,而不是上周关于产品功能的整个对话。第三,压缩表示。记忆系统可以以压缩的、结构化的格式存储信息,用更少的 token 传达相同的语义内容。500 字的对话摘要可能被压缩为 50 字的记忆事实。
让我们用记忆重新计算。系统提示可以减少到约 200 个 token 的最小模板(而非 800),因为持久化指令存储在记忆中。用户上下文注入从 1,200 个 token 降至约 150 个 token 的针对性记忆检索。对话历史从 1,500 个 token 降至约 200 个 token 的相关检索记忆。领域知识从 500 个 token 降至约 100 个 token 的相关事实。用户消息保持 100 个 token。
新总计约为每轮 750 个输入 token——从 4,100 个 token 减少了 82%。在我们的企业场景中,月输入 token 从 24.6 亿降至 4.5 亿,年度成本从 295,200 美元降至 54,000 美元——每年节省 241,200 美元。
但这是保守估计。通过积极的记忆优化——预计算摘要、分层记忆检索和预测性上下文加载——组织报告的减幅高达 91%,将年成本降至约 29,000 美元。即每年节省 266,200 美元,仅针对一个应用。
记忆增强架构
记忆增强系统的技术架构与简单的上下文注入方法有显著不同。理解这种架构是理解节省来源的关键。
在传统架构中,应用层为每次 LLM 调用组装上下文负载。该负载包括系统提示、从数据库提取的用户数据、从日志提取的对话历史,以及任何相关文档。整个负载被序列化为 token 并发送到模型 API。模型处理所有 token,生成响应,然后返回响应。上下文随后被丢弃——调用之间没有任何持久化。
在记忆增强架构中,流程不同。当用户发送消息时,记忆层首先确定模型需要知道什么。它基于查询检索相关记忆——语义搜索、时间相关性和关系图都发挥作用。它构造一个最小上下文包,只包含与模型从持久化记忆状态中已知内容的增量。这个最小包与用户消息结合,形成模型的输入。模型响应后,记忆层提取新事实、更新现有记忆并修剪过时信息。
关键创新是记忆层充当智能缓存和检索系统。不再由应用开发者手动决定包含什么上下文(为安全起见不可避免地会过度包含),记忆系统做出精确的、数据驱动的相关性决策。
MemoryLake 通过其 D1 引擎实现这一点,该引擎为每个用户和组织维护结构化的、版本化的记忆图谱。该引擎处理提取、去重、压缩和检索——所有这些都经过优化,以最小化每次 LLM 调用的 token 占用量,同时最大化提供的上下文的相关性和准确性。
这种架构转变还带来了新能力:跨模型调用的记忆共享。当应用的不同部分调用不同模型(甚至不同提供商)时,它们都共享同一个记忆层。在一次交互中建立的上下文立即对所有其他交互可用,无需重新注入。
真实世界的节省明细
让我们检查不同部署规模和用例的节省情况。经济效益因对话复杂度、用户回访率和上下文丰富度而显著不同。
对于拥有 10,000 月活跃用户的小型 SaaS 产品,简单的问答交互平均每会话 3 轮,无记忆的年 token 成本约为 44,000 美元。有记忆后降至 8,800 美元——80% 的节省,每年 35,200 美元。实施记忆基础设施的投资回报在第一个月即可收回。
对于拥有每月 100,000 个会话、每会话 6 轮丰富上下文的中端客户支持平台,我们已经计算了数字:从年 295,200 美元降至 54,000 美元——82% 的节省。如果推进到积极优化,节省达到 91%,降至 29,000 美元。
对于部署在 5,000 人组织中的企业 AI 助手,每个员工每天平均 20 次深度组织上下文的 AI 交互,数字变得惊人。无记忆时,年成本达 365 万美元。有记忆后,438,000 美元——88% 的减少,每年节省 321 万美元。
对于运行自主多步骤任务的 AI 代理系统——增长最快的用例——节省更为显著。一个代理每个任务可能进行 50 到 200 次 LLM 调用,每次都需要了解先前步骤。无记忆时,单个复杂任务可能消耗 500,000 个 token。有记忆后,同一任务只需约 60,000 个 token。对于每月运行 10,000 个代理任务的组织,年节省为 528,000 美元。
模式很明确:您的 AI 交互越复杂、越频繁、上下文越丰富,记忆基础设施的节省就越大。随着 AI 使用量呈指数级增长,绝对节省也成比例增长。
超越直接 Token 节省
Token 节省是最可量化的收益,但仅代表经济图景的一部分。记忆基础设施创造了多个随时间复合的额外价值流。
响应质量的提升直接影响商业指标。当 AI 响应更加个性化和上下文感知时,转化率上升,支持工单解决时间缩短,用户满意度分数提高。Gartner 的一项研究估计,个性化 AI 交互比通用交互增加 15% 到 25% 的收入。如果您的 AI 辅助收入为 1,000 万美元,记忆驱动的个性化可能增加 150 到 250 万美元的增量收入。
延迟降低对用户体验很重要。较小的上下文负载意味着更快的模型推理。4,100 个 token 的输入处理时间明显长于 750 个 token 的输入。在数百万次交互中,这转化为感知响应速度的有意义改善。研究表明,AI 响应延迟每降低 100ms,用户参与度增加 1% 到 3%。
当记忆被抽象为基础设施时,开发者生产力提升。不再需要每个开发团队手动构建上下文注入管道,记忆层处理一切。这每季度可节省数百个工程小时——对于中型团队来说,年价值轻松达到 50,000 至 200,000 美元。
模型灵活性是另一个隐藏收益。当上下文由记忆层管理而非硬编码到提示中时,在模型之间切换变得轻而易举。您不会因为提示工程依赖于特定的 token 格式而被锁定在特定提供商。仅此谈判筹码就能在模型 API 合同上节省 10% 到 30%。
最后,合规性和可审计性变得更容易。记忆基础设施维护着每次交互提供了什么上下文的结构化记录。这个审计追踪对受监管行业来说是无价的,每年可减少 100,000 美元或更多的合规成本。
记忆计算与外部数据补充:额外节省
除了消除冗余上下文注入,记忆系统还通过两种额外机制节省 token:计算和外部数据补充。两者都减少了 LLM 在推理时需要执行的工作,直接降低 token 成本的同时提高输出质量。
记忆计算——冲突检测、时间推理、模式综合、偏好建模——在信息到达 LLM 之前进行预处理。不再将原始的、可能矛盾的事实塞入提示并依赖模型来整理(消耗 token 并引入错误风险),记忆系统解决冲突、综合模式,呈现干净的、经过计算的摘要。一个在 30 次对话中有 50 个分散偏好信号的用户不需要将所有 50 个信号放入提示。记忆系统计算出一个大约 80 个 token 的整合偏好模型,捕获 LLM 所需的内容。这是计算压缩:通过推理记忆产生紧凑、高信号的上下文。
外部数据补充减少幻觉,而幻觉本身就是一种 token 成本。当 LLM 产生幻觉时,下游成本包括:重新生成(重复调用)、用户信任侵蚀(导致更多澄清轮次)和错误纠正(额外的对话来修复错误)。通过用外部数据丰富记忆——来自 API 的经过验证的事实、文档摄入、实时数据源——系统为 LLM 提供有据可查的准确上下文,降低幻觉率和它们触发的昂贵恢复循环。组织报告在实施外部数据补充后,后续纠正轮次减少了 20% 到 40%,转化为显著的额外 token 节省。
计算和补充的综合效果意味着记忆基础设施不仅通过避免冗余来节省 token,还通过积极提高进入模型的每个 token 的质量和密度来节省。更好的输入用更少的 token 产生更好的输出——双重经济优势。
实施经济学
记忆基础设施的反对论点总是实施成本。构建和维护记忆系统不是免费的。让我们诚实评估成本。
自建记忆系统通常需要 2 到 4 名高级工程师工作 3 到 6 个月。按每位工程师每年 250,000 美元的全额成本计,即 250,000 到 500,000 美元的开发成本。持续维护每年另需 100,000 到 200,000 美元。基础设施成本(数据库、向量存储、计算)每月 2,000 到 20,000 美元不等。
使用像 MemoryLake 这样的托管记忆平台可以大幅降低这些成本。集成通常需要几天到几周,而不是几个月。平台成本随使用量扩展,但设计上只是其带来的 token 节省的一小部分。对于我们每年节省 241,200 美元的中端案例,年费 24,000 美元的记忆平台带来 10 倍回报。
构建与购买的决策对大多数组织来说明确偏向购买。构建高效的记忆提取、压缩、检索和版本控制系统所需的专业知识并非微不足道。大多数自建团队最终只能捕获 30% 到 50% 的潜在节省,而专用平台可达 80% 到 91%。
还有工程时间的机会成本。那 2 到 4 名工程师花 6 个月在记忆基础设施上,本可以构建直接驱动收入的功能。机会成本通常超过直接实施成本。
ROI 时间线分析
记忆基础设施的投资何时回本?答案取决于规模,但回收期在所有场景中都非常短。
对于小型 SaaS 产品,托管平台集成成本约 5,000 美元,月节省约 2,900 美元,回收期不到 2 个月。对于中端部署,集成成本约 15,000 美元,月节省约 20,000 美元,回收期不到 1 个月。对于企业部署,即使定制集成成本 100,000 美元,月节省 267,000 美元意味着不到 2 周即可回本。
这些回收期对基础设施投资来说异常短暂。大多数基础设施项目在 12 到 24 个月的时间范围内评估。记忆基础设施通常在第一次季度审查前就已收回成本。
ROI 还会随时间改善。随着用户群增长和对话变得更丰富,记忆的节省会复合。同比来看,大多数组织即使不优化,也能看到节省每年增加 30% 到 50%,仅仅因为有更多上下文可以避免重新传输。
ROI 时间线中的一个关键因素是组织内 AI 使用的增长轨迹。如果您计划扩展 AI 能力——更多用例、更多用户、更复杂的交互——记忆基础设施的节省会同步增长。在成本螺旋上升之前尽早实施记忆,远比在已经花费数百万冗余 token 后再补救要经济得多。
复合效应
记忆基础设施最强有力的经济论点也许是复合效应。记忆不仅节省 token——它创造了一个价值递增、边际成本递减的飞轮。
通过记忆系统的每次交互都使系统更有价值。新事实被提取和存储。用户偏好变得更加精细。记忆图谱变得更密集、更互联。这意味着未来的交互需要更少的注入上下文,因为记忆系统有更多可以利用的内容。
实际上,第一天的新用户可能需要 2,000 个 token 的上下文注入,因为记忆系统几乎没有可提供的。到第 30 天,记忆系统已充分了解用户,上下文注入降至 500 个 token。到第 180 天,系统已如此精准,每次交互只需 100 到 200 个 token 的真正新颖上下文。
这种复合效应意味着您最有价值的用户——频繁交互、有丰富历史的超级用户——也是服务成本最低的。这与无记忆场景恰恰相反,在那里超级用户因需要重新注入最多上下文而最为昂贵。
复合效应也适用于组织层面。随着更多团队采用共享记忆基础设施,跨功能上下文变得可用。销售 AI 知道支持 AI 了解到的内容。产品 AI 建立在分析 AI 发现的基础上。每个新集成都增加了整个记忆图谱的价值,同时降低了每次交互的成本。
在三年时间范围内,拥有记忆基础设施的组织报告累计节省是第一年节省的 5 到 8 倍,这要归功于复合效应。第一年 82% 的节省到第三年可增长到 91% 或更高。
未来预测
随着行业的演进,AI 记忆的经济学将变得更加有利。几个趋势指向这个方向。
第一,AI 使用量呈指数级增长。根据麦肯锡 2024 年全球 AI 调查,企业 AI 使用量预计到 2027 年增长 3 到 5 倍。更多使用意味着更多 token,意味着记忆带来更多节省。今天节省 250,000 美元的组织仅因使用量增长就可能在两年内节省 100 万美元或更多。
第二,AI 任务正变得更加复杂。代理 AI、多步骤推理和长期任务都需要大量上下文。一个执行 50 步研究任务的 AI 代理可能进行 200 次 LLM 调用。无记忆时,每次调用都从头建立上下文。有记忆后,每次调用在上次基础上增量构建。复杂代理工作流的每任务节省可超过 95%。
第三,个性化期望在不断提高。用户越来越期望 AI 认识他们、记住他们并建立在先前交互的基础上。没有记忆满足这些期望意味着越来越大的上下文负载。有记忆满足它们意味着更好的体验和更低的成本。
第四,多模型架构正成为标准。组织为不同任务使用不同模型——分类用便宜模型、生成用强大模型、代码用专用模型。每次需要上下文注入的模型调用都会成倍增加 token 成本。记忆提供了一个高效服务所有模型的共享上下文层。
现在投资记忆基础设施的组织将拥有随时间复合的结构性成本优势。延迟的组织将面对迅速上升的 token 成本,最终被迫削减 AI 雄心或进行回溯性(且更昂贵的)记忆实施。
结论
AI 记忆的经济学不仅仅是引人注目——而是紧迫的。没有记忆基础设施的每一天都是在用 token 燃烧 AI 已经知道的信息。数学是明确的:在任何有意义的规模上运营的组织都可以通过实施持久化记忆实现 80% 到 91% 的 token 节省。
医生类比最好地概括了这一点。没有哪个理智的医疗系统会在每次就诊后销毁患者记录,并要求医生在每次预约前重新阅读整个病史。然而这正是当今大多数 AI 系统所做的——而且它们为此付出了巨大代价。
前进的道路是明确的。审计您当前的 token 支出。识别上下文负载中的冗余率。计算记忆增强架构的节省。然后实施——无论是通过像 MemoryLake 这样的托管平台还是自定义解决方案。回收期可能以周而非年来衡量。
91% 不是上限——而是起点。随着记忆系统的成熟、使用模式变得更丰富、AI 能力的扩展,节省只会增长。问题不是是否投资 AI 记忆基础设施。问题是在您行动之前,您愿意浪费多少。