返回博客

MemoryVLA:机器人如何学会记忆

深入分析 MemoryVLA 论文(arXiv:2508.19236)——工作记忆和长期记忆如何使机器人执行无状态模型无法完成的复杂多步操作任务。

2025年8月28日·19 分钟阅读·MemoryLake 研究团队
Working MemoryStep 1: Picked red blockStep 2: Placed on plateStep 3: Reaching green...Current: graspingLong-Term MemoryExp #142: grasp from topExp #87: soft grip for glassExp #203: retry after slipExp #56: stack alignmentAction: grasp(green, top, soft)MemoryVLA: Working Memory + Long-Term Memory = Intelligent Manipulation

1. 外科医生的类比

想象两位外科医生执行一个复杂的多阶段手术。第一位外科医生有一个奇特的状况:每六十秒,他的记忆就被清除。他能看到手术区域,拥有所有技术技能,但不记得前一分钟做了什么。他不知道已经解剖了哪些组织,夹住了哪些血管,或手术进行到了哪个阶段。每一分钟,他都必须仅凭视觉线索从头重新评估整个情况。

第二位外科医生有正常的记忆。她记得手术的整个过程——她遇到的解剖结构、第十二分钟时她绕过的意外粘连、第二十三分钟因发现异常而决定修改标准方法。她不仅携带当前的视觉场景,还携带手术的完整叙事。

这不是刻意的类比。它几乎准确描述了机器人学中无状态视觉-语言-行动(VLA)模型和记忆增强 VLA 模型之间的区别。MemoryVLA 论文代表了赋予机器人第二位外科医生能力的突破。

其影响远超机器人实验室。MemoryVLA 展示了一个适用于每个 AI 系统的一般原则:记忆对于复杂的多步任务不是可选的。没有它,即使是最有能力的模型也注定永远失忆——聪明但健忘,有技能但没有上下文。

就像一位记得每一次手术的外科医生。

2. 问题:无状态机器人

现代机器人操作系统近年来取得了显著进步。VLA 模型将视觉感知、语言理解和运动控制结合到单一的端到端系统中。但它们有一个根本限制:它们是无状态的。

每个动作决策仅基于当前观察——当前的相机帧和当前的指令。模型不记得之前做了什么,尝试了什么失败了,或经过了什么中间状态。

这种无状态性造成三个关键问题。第一,任务分解失败。复杂任务需要多个步骤,机器人必须隐式地追踪哪些步骤已完成。想象每几秒就忘记做了什么的情况下试图组装家具。

第二,错误恢复失败。当抓取失败或物体滑落时,无状态机器人无法区分"我从未尝试拾取这个"和"我已经尝试了三次但失败了"。

第三,上下文积累失败。在长期任务中,任务早期发现的信息在后期是需要的。

MemoryVLA 论文通过引入两个互补的记忆系统来解决所有三个问题:维护实时任务上下文的工作记忆,以及存储和检索过去经验的长期记忆。

3. MemoryVLA 架构概览

MemoryVLA 在标准 VLA 架构之上添加了两个记忆模块,将其从反应式系统转变为认知系统。基础模型遵循熟悉的模式:视觉编码器处理相机图像,语言编码器处理任务指令,行动解码器生成运动命令。创新在于感知和行动之间发生的事情。

架构有四个主要组件:视觉编码器、语言编码器、工作记忆模块和长期记忆模块。

工作记忆和长期记忆在精心设计的流水线中相互交互并与基础模型交互。在每个时间步,视觉和语言嵌入首先通过工作记忆,然后用于查询长期记忆,最后增强后的表示被送入行动解码器。

这种架构反映了 Kahneman 提出的人类认知双过程理论。工作记忆对应系统 2——缓慢、深思熟虑、维持上下文的过程。长期记忆对应系统 1 的基于经验的直觉。

MemoryVLA ArchitectureCamera ImageInstructionVisual Encoder (ViT)Language EncoderWorking MemoryCross-Attention UpdateM_t = f(M_{t-1}, V_t, L_t)Long-Term MemoryRetrieval-AugmentedTop-k ExperiencesMulti-Head Attention FusionAction Decoder → Motor Commands

4. 工作记忆:草稿纸

MemoryVLA 中的工作记忆模块作为到目前为止任务的动态、压缩摘要。把它想象成外科医生的心理草稿纸——对已做事项、当前状态和剩余任务的持续记录。

技术上,工作记忆被实现为一组可学习的记忆标记,通过与当前观察的交叉注意力在每个时间步更新。残差连接确保先前时间步的信息被保留,同时整合新信息。

这种架构有几个优雅的属性:它是固定大小的(不会随任务进行无限增长),它是学习到的(模型学习什么信息值得在工作记忆中保留),它是可微分的(梯度流过整个记忆管道)。

工作记忆实现了无状态模型无法执行的时间推理。当机器人遇到之前交互过的物体时,工作记忆包含该交互的痕迹。

在外科医生类比中,工作记忆是外科医生对手术进展的有意识认知:"我已经夹住了左肝动脉,胆囊部分已解剖,接下来需要识别胆囊管。"

5. 长期记忆:经验库

工作记忆追踪当前任务,而长期记忆提供来自过去任务的经验上下文。它回答这个问题:"我以前遇到过类似的情况吗,我做了什么?"

长期记忆被实现为检索增强系统。训练期间,模型从任务演示中构建一个(状态、行动、结果)元组的记忆库。

在推理时,当前情况被用作查询,从记忆库中检索最相关的过去经验。这些检索到的经验通过交叉注意力机制被整合到行动决策中。

这种检索机制服务于多种功能:隐式演示、迁移学习和错误避免信息。

在外科医生类比中,长期记忆是外科医生从数千次手术中积累的经验。当她遇到意外粘连时,她回忆类似案例并应用之前有效的方法。

工作记忆和长期记忆之间的交互特别强大。工作记忆为检索提供上下文,而长期记忆提供经验知识。

6. 记忆增强的行动流水线

让我们追踪 MemoryVLA 中一个完整的行动周期,了解工作记忆和长期记忆如何与基础 VLA 模型协作。

步骤 1:观察。机器人接收相机图像和语言指令。视觉编码器产生视觉嵌入,语言编码器产生语言嵌入。

步骤 2:工作记忆更新。当前观察用于更新工作记忆状态。如果机器人已经在任务上工作了几个步骤,工作记忆已经包含了任务进展的压缩历史。

步骤 3:长期记忆检索。更新后的工作记忆状态结合当前观察用于查询长期记忆库。检索到的经验提供策略和执行方面的隐式指导。

步骤 4:融合和行动生成。视觉嵌入、语言嵌入、工作记忆状态和检索到的长期记忆通过多头注意力机制融合。

步骤 5:执行和反馈。运动命令被执行,机器人观察结果,循环重复。行动结果在下一时间步反馈到工作记忆中。

这个流水线确保每个行动决策都由三个知识来源提供信息:当前观察、任务历史(通过工作记忆)和过去经验(通过长期记忆)。

7. 实验结果

MemoryVLA 论文报告了一系列机器人操作基准测试的实验,结果令人信服地证明了记忆的价值。

在短期任务上,MemoryVLA 与无状态 VLA 模型表现相当。这是预期的:对于可以在几个时间步内完成的任务,几乎没有历史上下文可以利用。

在长期任务上,MemoryVLA 显著优于无状态基线。论文报告在需要超过 10 个连续行动的基准测试上,任务完成率提高了 20-40%。

消融研究揭示两种记忆系统都有独立贡献。移除工作记忆降低约 15% 性能,移除长期记忆降低约 12%,移除两者降低 30-40%。

MemoryVLA 还展示了改进的泛化能力。在训练期间未见过的新物体和配置上测试时,记忆增强模型比无状态模型退化得更优雅。

Ablation Study: Memory Impact on Task CompletionFull MemoryVLA92%No Long-Term Memory80%No Working Memory77%No Memory (Baseline)55%Long-horizon manipulation tasks (10+ sequential actions)

8. 为什么这超越了机器人学的意义

MemoryVLA 是一篇机器人论文,但其洞见是普遍的。它解决的根本挑战——如何赋予 AI 系统在扩展交互中维持上下文并利用过去经验做出当前决策的能力——是每个与用户长期互动的 AI 应用面临的相同挑战。

MemoryVLA 的双记忆架构直接映射到对话 AI、个人助手和企业 AI 系统的需求。

关键洞见是:记忆不是功能——它是架构。你不能事后将它附加到无状态系统上。

MemoryVLA 在物理世界中展示了这一原则。MemoryLake 在数字世界中展示了这一原则。

它们共同指向一个未来:每个 AI 系统——无论是控制机器人手臂还是文本对话——都是记忆原生的。

9. 记忆即计算与传感器数据补充

MemoryVLA 阐明了一个远超机器人学的原则:记忆不仅仅是存储——它是计算。工作记忆模块不是被动地保存过去的观察。它主动计算任务状态的压缩、演化表示。长期记忆模块不仅仅检索相似经验——它计算相关性分数,将检索的策略适配到当前上下文,并将多个信息源融合为连贯的行动计划。这些是对记忆的计算操作,不是检索操作。

在机器人系统中,记忆的这种计算维度实现了从回忆经验中规划轨迹、基于过去操作尝试的物体物理预测建模,以及将当前失败与之前失败库进行比较以推断根本原因的错误诊断。一个从左侧三次撞倒杯子的机器人计算出推理:从右侧接近。这是记忆在思考,而非记忆在回忆。

同样重要的是外部数据补充维度。MemoryVLA 的机器人不仅仅依赖自己的过去经验。其视觉编码器持续摄入新的传感器数据——相机画面、力传感器、本体感觉信号——并实时将它们整合到记忆管道中。在更广泛的 AI 系统中,这个类比更加强大:记忆系统可以主动从 Web API、文档库、实时数据流和第三方服务中拉取外部数据,将其作为一等知识整合到记忆图谱中。记忆不仅从交互中生长,也从外部世界中生长。

MemoryLake 将两个原则应用于文本 AI。其 D1 引擎对记忆图谱执行持续计算——冲突检测、时间推理、模式综合和多跳推理。其数据补充管道摄入外部数据源,包括文档、API 和网络搜索结果,所有数据都带有完整的溯源追踪。无论领域是机器人操作还是企业 AI,架构都是相同的:记忆必须计算和生长,而不仅仅是存储和检索。

10. 与 MemoryLake 的联系

MemoryVLA 和 MemoryLake 之间的架构平行性令人惊讶。两个系统都实现了具有不同时间尺度和不同功能的多种记忆类型。

MemoryLake 的六种记忆类型可以映射到 MemoryVLA 的双记忆系统。工作记忆大致对应对话和事件记忆,长期记忆对应背景、事实、反思和技能记忆。

MemoryLake 在几个方面扩展了 MemoryVLA 的方法:显式记忆类型化、冲突检测和版本控制。

MemoryVLA 论文验证了 MemoryLake 方法的核心前提:结构化记忆显著优于扁平的无差别存储。

11. 具身记忆的未来

MemoryVLA 为具身 AI 开辟了几个激动人心的研究方向:跨任务记忆迁移、协作记忆、记忆整合和记忆驱动的探索。

在多机器人系统中,一个机器人的经验能否与另一个共享?这将创造一种集体智能形式。

随着更多经验的积累,需要解决如何整合、压缩和修剪记忆以维持效率。这类似于人类睡眠过程。

记忆驱动的探索:记忆装备的机器人可以战略性地探索以填补其经验中的空白。

这些研究方向同样适用于非具身 AI。MemoryVLA 不仅在推进机器人学——它在推进机器记忆的科学。

12. 结论

MemoryVLA 代表了赋予机器人记忆能力的重大进步。通过引入用于实时上下文跟踪的工作记忆和用于经验知识检索的长期记忆,它解决了无状态模型的三个关键失败。

但论文的意义超越了机器人学。它为一个适用于所有 AI 系统的原则提供了经验证据:记忆对于复杂的多步任务不是可选的。

AI 的未来不仅仅是让模型更大或训练数据更多。它是关于赋予 AI 系统记忆的能力。MemoryVLA 在物理世界展示了如何做到,MemoryLake 在数字世界展示了如何做到。

参考文献

  1. MemoryVLA: Memory-Augmented Vision-Language-Action Model for Robotic Manipulation. arXiv:2508.19236, 2025.
  2. Brohan, A., et al. (2023). "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control." arXiv.
  3. Zhang, Z., et al. (2024). "A Survey on the Memory Mechanism of Large Language Model based Agents." arXiv.

探索 MemoryLake 如何为每个 AI 系统带来记忆

试用 MemoryLake