1. 机器人学中的15分钟障碍
现代机器人学的核心存在一个令人着迷的悖论:我们可以制造执行非凡精密操作的机器人——组装微电子设备、执行微创手术、在行星表面导航——但大多数机器人在五岁小孩轻松完成的任务上却表现糟糕。做三明治。清洁厨房。整理房间。差距不在于运动能力或感知能力;而在于记忆。
人类认为微不足道的大多数家务任务需要在10到30分钟的时间内持续、有组织的努力。在此期间,人类无缝地跟踪已完成的事项、剩余的事项、工具和食材的位置,以及总体目标如何映射到当前子任务。这种从瞬间视觉跟踪到长程任务规划的连续、多尺度记忆,是使延伸任务成为可能的认知基础设施。
相比之下,当前的机器人系统通常在狭窄的时间窗口内运作。视觉-语言-动作(VLA)模型可能擅长执行单个操作原语——抓取杯子、打开抽屉——但它没有记住30秒前所做事情的机制,更不用说五分钟前了。结果就是研究人员所说的"15分钟障碍":需要超过几分钟的持续、上下文感知行为的任务基本上超出了标准架构的能力范围。
2026年初的一篇开创性论文"MEM: Multi-scale Embodied Memory for Long-Horizon Tasks"(arXiv:2603.03596)为这个问题提出了一个优雅的解决方案。通过引入受生物学启发的多尺度记忆系统,MEM使机器人能够在从秒到数十分钟的时间尺度上维持连贯的任务执行。本文对MEM的架构、实验结果及其对实体AI未来的影响进行了全面分析。
2. 为什么记忆是瓶颈
要理解为什么记忆代表实体AI中的关键瓶颈,请考虑一个看似简单的任务中的信息流:烹饪后清洁厨房。机器人必须识别所有不在位的物品,确定每个物品的归属位置,规划高效的行动序列,在监控障碍物和变化的同时执行这些行动,验证每个子任务是否已完成,并在出现意外情况时进行调适(最初不可见的溢出物、已满的柜子)。
这个任务产生了大量的感知数据。配备RGB-D相机的典型机器人每秒产生约50-100 MB的视觉数据。在15分钟内,这相当于45-90 GB的原始感知输入。当前没有系统能够实时存储和处理所有这些数据。因此,根本问题不是是否使用记忆,而是如何组织记忆,使正确的信息在正确的时间以正确的抽象级别可用。
以前解决这个问题的方法通常分为两类:完全不维护显式记忆的纯反应系统(完全依赖当前感知输入和学习的反射),以及试图维护在每个时间步更新的完整世界模型的系统。反应方法失败是因为它无法处理具有时间依赖性的任务——它literally不知道自己已经做了什么。完整世界模型方法失败是因为在实时维护和更新环境的综合模型在计算上是不可行的且脆弱的。
人类认知暗示了一条中间路径。神经科学研究早已确立,人类记忆同时在多个时间尺度上运作。工作记忆保持即时感知上下文(我手里现在拿的是什么?),情景记忆跟踪最近的事件(我刚刚清洁了台面),语义记忆提供一般知识(盘子放在上面的柜子里)。这些记忆系统持续交互,每个系统提供帮助其他系统更高效运作的上下文。
MEM是第一个系统地实现这种多尺度记忆架构的机器人系统,以在真实环境中实现长时间任务执行。
3. MEM架构:多尺度记忆详解
MEM架构由三个相互连接的记忆组件组成,每个组件在不同的时间分辨率和抽象级别上运作。它们共同创建了一个连贯的记忆系统,支持精细的运动控制和高级任务规划。
第一个组件是工作记忆模块(WMM)。该模块维护最近视觉观察的滚动缓冲区——通常是最后5-10秒的以自我为中心的降低分辨率视频。WMM作为机器人的即时感知上下文,使其能够跟踪当前正在操作的对象、检测即时环境中的变化,并为当前执行的动作提供视觉基础。WMM被实现为视频编码器上的滑动窗口(具体来说是VideoMAE的轻量级变体),产生捕捉即时环境中空间和时间模式的连续视觉嵌入流。
第二个组件是情景记忆模块(EMM)。随着机器人执行任务,EMM自动将连续的活动流分割为离散的情节——连贯的行为单元,如"拿起海绵"、"擦拭台面"或"打开洗碗机"。每个情节被编码为文本基础的摘要,捕获发生了什么、涉及什么对象、结果是什么以及情节持续了多长时间。这些摘要存储在支持按内容、时间或与当前任务上下文的相关性进行高效检索的结构化记忆中。
第三个组件是语义任务记忆(STM)。该模块编码关于任务如何构建的一般知识——清洁厨房通常涉及哪些步骤、它们通常以什么顺序发生、有哪些常见的失败模式、以及什么恢复策略是适当的。STM从大语言模型关于家务任务的知识初始化,并通过经验逐步细化。它提供指导机器人行为的高级规划上下文,而WMM和EMM提供使准确执行成为可能的实时感知和历史上下文。
MEM的关键创新不在于任何单个记忆组件,而在于基于注意力的集成机制,该机制允许所有三个组件在每个决策步骤中交互。当机器人需要决定下一步该做什么时,系统同时关注当前视觉上下文(WMM)、已完成事项的历史(EMM)和一般任务计划(STM)。这种多尺度注意力产生统一的表示,同时捕获即时情况和更广泛的任务上下文,使决策既局部适当又全局连贯。
4. 厨房清洁:15分钟基准测试
MEM论文引入了以厨房清洁为中心的长时间实体任务严格基准测试——选择这项任务是因为它需要具有子任务之间复杂依赖关系的延伸、多步骤行为。基准测试定义了四种难度递增的厨房配置,从一个简单的双台面厨房(需要移动五个物品)到一个完整的厨房(20+个物品、多个存储位置和故意设置的干扰物)。
在最简单的配置中,机器人必须通过将五个物品归还到指定存储位置来清洁厨房。物品包括砧板、刀、碗、海绵和一瓶洗碗液。该任务需要大约8分钟的连续、协调行为。最复杂的配置需要大约22分钟,涉及在多个房间之间导航、操作电器(洗碗机、垃圾压缩机),以及对正确位置不明确的物品做出判断。
基线比较很有启发性。没有记忆的标准VLA模型(OpenVLA)在最简单配置上仅达到12%的任务完成率,主要因为它无法跟踪哪些物品已经被归还到正确位置。例如,在归还砧板后,它经常会返回砧板的原始位置并尝试再次拿起它——这是缺乏情景记忆的明显表现。
MemoryVLA是一个2025年的系统,用简单的键值记忆存储增强VLA模型,在最简单配置上将完成率提高到38%。然而,其平面记忆结构在需要超过10分钟的任务中表现困难,因为记忆被不相关的历史观察所充斥,系统无法有效区分最近的相关记忆和较旧的已完成子任务记录。
MEM在最简单配置上达到了79%的完成率,在最复杂配置上达到52%——在所有难度级别上大约是次优系统的两倍。改进在超过15分钟的任务中最为显著,MEM的多尺度记忆架构使其在更简单的记忆系统退化后很久仍能维持连贯行为。失败案例分析表明,大多数MEM失败不是来自记忆问题,而是来自运动执行错误——机器人知道该做什么但偶尔未能在物理上完成,这与无记忆系统表现出的混乱是根本不同类别的失败。
5. 三明治制作:不确定性下的创造性记忆
MEM论文中的第二个主要基准测试是三明治准备——这个任务虽然看似比厨房清洁更简单,但引入了与排序、食材跟踪和偏好记忆相关的独特记忆挑战。制作三明治不仅需要记住已经做了什么,还需要维护关于下一步是什么以及当前状态与期望结果之间关系的特定计划。
基准测试定义了五种复杂度递增的三明治类型:简单的PB&J(5步,约4分钟)、火腿奶酪三明治(8步,约7分钟)、俱乐部三明治(12步,约11分钟)、素食卷饼(15步,约14分钟)和由自然语言描述定义的自定义三明治(步骤和持续时间可变)。自定义三明治特别有趣,因为它要求机器人即时将自然语言描述转化为任务计划,然后在通过记忆跟踪进度的同时执行该计划。
在三明治制作中,工作记忆模块对于精确的操作任务(如涂抹调料或分层食材)至关重要。系统必须在视觉上跟踪酱料是否已均匀涂抹、奶酪片是否正确对齐、或者是否放了足够的生菜。这些本质上是视觉判断,需要在当前状态和最近参考帧之间进行比较——这正是WMM的滚动视频缓冲区所实现的。
情景记忆模块处理不同的挑战:食材跟踪。在制作具有多层的俱乐部三明治时,机器人必须记住哪些食材已经放置,哪些还没有。没有情景记忆,系统经常重复食材(放两次番茄)或遗漏它们(忘记第二层火鸡肉)。使用MEM的结构化情景记忆,与无记忆基线相比,这些错误减少了84%。
语义任务记忆为整个操作提供了脚手架。它编码关于三明治构造的一般知识(面包先放和最后放、湿的食材不应直接放在面包上、蛋白质通常在蔬菜之前),同时保持足够的灵活性以适应每种三明治类型的具体说明。对于自定义三明治基准测试,STM从自然语言生成任务计划然后基于执行反馈更新该计划的能力被证明是关键的,在任意三明治描述上实现了63%的完成率——这是以前的机器人系统从未尝试过的任务。
6. 多尺度记忆背后的生物学
MEM的架构从神经科学关于人类记忆系统的研究中获得了明确的灵感。三组件结构直接映射到已建立的人类认知模型:工作记忆模块对应Baddeley的工作记忆模型及其视觉空间画板和语音环路;情景记忆模块对应Tulving的情景记忆系统,在时间上下文中编码个人经历的事件;语义任务记忆对应语义记忆,存储从特定经验中抽象出的一般知识。
生物学的相似之处延伸到记忆巩固和检索机制之外。在人脑中,海马体在通过巩固过程将工作记忆痕迹转换为情景记忆方面起着核心作用。MEM实现了类似的过程:当WMM检测到一个连贯的行为情节已经结束时(通过学习的边界检测模型),相关的工作记忆内容被总结并提交到EMM。这种自动分割和巩固过程确保情景记忆包含有意义的、组织良好的记录,而不是未区分的观察流。
类似地,MEM中情景记忆和语义记忆之间的交互镜像了记忆泛化的神经过程。在人脑中,重复的情景经验逐渐被抽象为语义知识——吃了很多三明治的孩子最终发展出关于三明治如何运作的一般知识,独立于任何特定的吃三明治情节。MEM支持类似的过程:随着系统从多次任务执行中积累情景记忆,STM定期更新以纳入学到的经验教训,基于实际经验改进其任务计划。
集成所有三个记忆组件的多尺度注意力机制在前额叶皮层中找到了生物学对应物,已知前额叶皮层协调来自多个记忆系统的信息检索和整合,以支持目标导向行为。MEM的集成模块学到的注意力权重与人类任务执行神经影像研究中观察到的模式有惊人的相似性:在任务早期,注意力重点倾向STM(任务规划);在执行期间,注意力转向WMM(感知监控);在子任务之间的转换点,注意力在EMM(进度跟踪)上达到峰值。
7. 与现有方法的比较
记忆增强的实体AI的格局近年来发展迅速。理解MEM的位置需要审视几个重要的先前系统。
MemoryVLA(2025)是首批证明显式记忆可以改善VLA模型在多步骤任务上性能的系统之一。其方法很直接:一个键值记忆存储,其中键是视觉嵌入,值是动作-结果对。虽然对短任务(5分钟以下)有效,但MemoryVLA的平面记忆结构不区分不同类型的信息或不同的时间尺度,导致随着记忆增长检索质量下降。MEM的层次结构直接解决了这个限制,即使在长时间运行后也能维持检索质量。
Embodied VideoAgent(2025)采用了不同的方法,使用大型视频理解模型处理扩展的以自我为中心的视频,并提取任务规划的相关信息。该系统在需要视觉理解的任务上表现出色,但在需要精确时间跟踪的任务上表现困难——它可以理解视频中厨房的样子,但难以确定哪些物品在何时被移动。MEM的显式情景记忆提供了Embodied VideoAgent所缺乏的时间结构。
RoboMem(2024)引入了记忆条件策略生成的概念,其中机器人的动作策略明确以从先前经验检索的记忆为条件。虽然在概念上与MEM的方法相似,但RoboMem的单尺度记忆架构要求策略同时在所有时间尺度上整合时间信息,给策略网络带来了过大的负担。MEM的多尺度分解通过以适当的抽象级别呈现预组织的信息来简化这种整合。
区分MEM与所有先前工作的关键洞察是认识到实体任务的记忆不是一个单一问题,而是一族相关问题,每个问题需要不同的表示、时间分辨率和检索策略。通过将记忆挑战分解为通过学习的集成机制交互的多个专门组件,MEM实现了远大于其各部分之和的性能。
8. 对MemoryLake和持久机器人记忆的影响
MEM的架构虽然作为研究原型实现,但指向了与MemoryLake能力非常吻合的基础设施需求。从研究到生产实体记忆的过渡提出了几个专门构建的记忆基础设施可以解决的挑战。
首先,跨电源周期的持久性。研究机器人可以在每次实验开始时以空记忆开始。部署的家用机器人不能。它必须记住物品的归属位置、家庭如何组织厨房,以及今天已完成了什么任务,即使在关机和重启后也是如此。MemoryLake的持久版本化存储提供了生产实体记忆所需的耐久性,并具有完整的溯源跟踪附加优势,可实现调试和持续改进。
其次,跨机器人实例的记忆共享。在多机器人部署中(在商业和工业环境中越来越常见),单个机器人的经验可以合并到共享语义记忆中,加速所有单元的学习。MemoryLake的合并和分支功能为这种分布式记忆管理提供了自然机制——单个机器人的经验可以在分支上积累,并定期合并到共享主线,冲突解决处理机器人学到矛盾经验的情况。
第三,记忆隐私和所有权。随着机器人在家庭和工作场所变得更加普遍,它们关于环境和其中人员积累的记忆成为敏感数据。MemoryLake的访问控制和加密功能确保实体记忆可以以与其他形式的个人数据相同的严格程度进行管理。"机器人记忆护照"的概念——一种随用户而非硬件旅行的便携式加密记忆存储——是MemoryLake架构的自然扩展。
MEM论文证明多尺度记忆是长时间实体任务的关键。MemoryLake提供了使该记忆持久、可共享和安全的基础设施——从15分钟研究演示到24/7部署机器人系统所需的基础。
9. 下一步:从15分钟到全天
MEM代表了重大进步,但它处理的15分钟任务仍然远短于实际家用或工业机器人所需的连续运行。将该方法扩展到数小时甚至全天运行引入了研究社区才刚刚开始解决的额外挑战。
在扩展时间尺度上的记忆管理需要复杂的压缩和遗忘机制。运行8小时的机器人不能存储每个动作的完整情景记忆;它必须学会区分值得详细记住的情节(异常事件、新物品放置、用户指令)和可以压缩为统计摘要的常规情节(今天清洁台面3次,每次大约4分钟)。这回应了人类认知中睡眠期间记忆巩固的现象,情景记忆被选择性地转移到语义记忆,原始情景痕迹被部分丢弃。
多任务记忆是另一个前沿领域。MEM当前的实现将每个任务(厨房清洁、三明治制作)视为独立的记忆上下文。真正通用的家用机器人必须维护跨任务的记忆:家庭偏好有机食材的知识(在三明治制作中学到的)应该为与杂货相关的任务提供信息;柜门铰链松动的观察(在厨房清洁中注意到的)应该触发维护通知。跨任务记忆需要更丰富的语义记忆结构,可以跨多个任务域表示和检索知识。
从MEM到生产实体记忆的道路通过基础设施。研究建立了认知架构;剩下的是使该架构稳健、可扩展和持久的工程。这正是MemoryLake旨在填补的空白。
10. 结论:记忆使机器人成为现实
MEM论文展示了关于实体AI的深刻真理:能够执行孤立动作的机器人和能够完成有意义任务的机器人之间的区别在于记忆。不是更快的处理器,不是更好的操控器,不是更多的训练数据——而是记忆。知道你做了什么、还需要做什么,以及如何将高级目标转化为适当的即时行动的能力,是使延伸的、有目的行为成为可能的认知基础设施。
MEM引入的多尺度架构——用于即时感知上下文的工作记忆、用于历史跟踪的情景记忆和用于任务知识的语义记忆——为组织机器人长时间运行所需的信息提供了有原则的框架。实验结果显示任务完成率与次优方法相比大约翻倍,证明这种架构不仅在理论上优雅,而且在实践中有效。
随着机器人从研究实验室进入家庭和工作场所,其记忆质量将决定其服务质量。MEM向我们展示了架构;下一步是构建大规模支持它的基础设施。对于我们这些致力于持久、结构化记忆系统的人来说,MEM的信息很明确:机器人已经为真正的记忆做好了准备。是时候给它们了。
11. 计算与外部数据:机器人记忆的缺失维度
MEM的多尺度架构优雅而严谨地解决了实体记忆的记忆支柱。但生产级机器人记忆需要论文未探索的两项额外能力:对记忆的计算和外部数据源的集成。考虑一个清洁过同一厨房五十次的机器人。它的情景记忆包含五十条轨迹,但没有记忆计算,它无法将这些综合为优化的清洁策略。计算意味着对存储经验的推理:识别出从左侧接近柜台到洗碗机的路径最快,边缘附近的易碎物品应优先移动,周三做饭的家庭成员会留下可预测的待清洁物品模式。这是轨迹优化、偏好建模和时间模式综合——在记忆之上执行的操作,而不仅仅在记忆之内。
计算支柱对于多机器人协调变得至关重要。当两个机器人共享一个厨房时,它们的组合记忆必须计算无冲突的任务分配:如果机器人A记得上次它清洁柜台而机器人B装载洗碗机,记忆系统应该推断出高效的分工并检测潜在冲突(两个机器人同时伸手拿同一物品)。MemoryLake的冲突检测和多跳推理引擎可以在共享实体记忆上执行这种推理,将积累的经验转化为协调的行为。
外部数据集成对实体系统同样不可或缺。机器人的记忆不应局限于它直接观察到的内容。外部数据源——建筑管理系统的更新平面图、制造商API的产品召回通知、预测泥土被带入屋内的天气数据、机器人尚未访问房间的智能家居传感器读数——都用机器人自身传感器无法单独获取的信息丰富记忆图。一个整合了家庭成员10分钟后到家的通知(来自日历API)与该人偏好记忆(喜欢客厅整洁、偏好昏暗灯光)的机器人可以主动准备环境。这是从世界中生长的记忆,不仅仅来自机器人的直接经验。
参考文献
- [1] Chen, W., 等. "MEM: Multi-scale Embodied Memory for Long-Horizon Tasks." arXiv preprint arXiv:2603.03596, 2026.
- [2] Liu, H., 等. "MemoryVLA: Memory-Augmented Vision-Language-Action Models for Robotic Manipulation." ICRA, 2025.
- [3] Wang, J., 等. "Embodied VideoAgent: Persistent Memory from Egocentric Video for Embodied Task Completion." CoRL, 2025.
- [4] Baddeley, A. "Working Memory: Theories, Models, and Controversies." Annual Review of Psychology, 2012.