16 分钟阅读MemoryLake 研究团队

为什么多智能体团队需要共享记忆(而不仅仅是共享上下文)

CrewAI、AutoGPT、LangGraph——多智能体框架正在蓬勃发展,但没有共享记忆的智能体会产生混乱。以下是让多智能体系统真正运作的公会记忆、团队记忆和世界记忆架构。

Agent ACoderAgent BReviewerAgent CTesterAgent DDevOpsShared MemoryGuild MemoryTeam MemoryWorld MemoryPersistent, typed, versioned, conflict-aware

1. 多智能体时刻

我们正处于多智能体时刻。仅在2026年的头两个月,我们就看到了多智能体框架的爆发式增长:CrewAI 超过了50,000个 GitHub 星标,AutoGPT 发布了原生多智能体编排的 v5 版本,LangGraph 成为有状态智能体工作流的标准,还有数十个较小的框架涌现用于专门用例。前提很有说服力:与其让一个 AI 智能体尝试做所有事情,不如让一个专业智能体团队协作来实现复杂目标。

与人类组织的类比是有意义的且具有指导性。软件公司不是让一个人编写代码、审查代码、测试、部署和监控。相反,它有专业角色——开发者、审查者、QA 工程师、DevOps 工程师、SRE——通过共享流程和共享知识进行协作。多智能体 AI 系统试图复制这种专业化,让智能体承担特定角色如"研究员"、"编码者"、"审查者"和"项目经理"。

但这里是大多数多智能体框架忽视的关键洞察:在人类组织中,协作之所以有效是因为团队成员共享记忆。他们共享关于项目的知识、关于彼此能力和偏好的知识、关于过去决策及其结果的知识,以及关于工作当前状态的知识。这种共享记忆是将一群个体转变为一个连贯团队的关键。没有它,您有一群才华横溢的人在互相矛盾地工作——这正是部署没有共享记忆基础设施的多智能体系统时会发生的事情。

2. 共享上下文的幻觉

大多数多智能体框架提供他们所称的"共享上下文"——一种让智能体在工作流程中互相传递消息、结果和指令的机制。CrewAI 有其任务委托系统。AutoGPT 有智能体间消息传递。LangGraph 有其状态图。这些机制对于协调智能体活动至关重要,但它们不是共享记忆。它们是共享上下文——这种区别极其重要。

共享上下文是临时的。它存在于单个工作流执行期间,然后消失。当工作流完成并开始新的工作流时,先前执行的所有上下文都消失了。每个智能体从零开始,没有之前发生事情的记忆,没有过去错误的知识,也没有对项目或领域的积累理解。这就像一群承包商在每次会议之间忘记了关于您项目的一切——技术上能胜任但在组织上是健忘的。

共享记忆是持久的。它跨工作流执行、跨天和周、跨不同的智能体配置存在。当智能体 A 在周二的工作流中发现了重要内容时,该知识在周三的工作流中对智能体 B 可用——即使智能体 A 没有运行。共享记忆提供了使协作随时间保持连贯的组织知识。这是一个学习和改进的团队与一个一次又一次犯相同错误的团队之间的区别。

3. 没有共享记忆会出什么问题

基于我们对客户群中超过200个生产多智能体部署的分析,我们编录了多智能体系统在没有共享记忆时发生的失败模式。失败分为四类,每类都有不同的原因和后果。

第一个也是最常见的失败是矛盾行为。智能体 A 做出决定(例如,"为用户数据库使用 PostgreSQL"),智能体 B 做出矛盾决定(例如,"为用户数据库使用 MongoDB"),因为它们没有彼此决定的共享记忆。在人类团队中,这会立即被发现——有人会说"等等,我们不是已经决定使用 PostgreSQL 了吗?"但没有共享记忆的智能体没有检测或防止这些矛盾的机制。结果是浪费工作、不一致的系统,以及通常需要数周才能发现的微妙 bug。

第二个失败是重复工作。没有共享记忆,智能体无法知道其他智能体已经完成了什么。智能体 A 可能花30分钟研究一个智能体 B 昨天已经评估并拒绝的库。智能体 C 可能实现一个智能体 D 已经在不同文件中编写的工具函数。这种重复不仅在计算成本方面是浪费的(确实如此——我们估计多智能体系统中20-35%的 LLM token 花在了冗余工作上)。它还引入了不一致性,因为两个实现相同功能的智能体不可避免地会做出不同的设计选择。

第三个失败是丢失的组织知识。当智能体发现有价值的东西——调试技术、性能优化、适合项目的设计模式——该知识随会话消亡。下次智能体遇到相同问题时,它必须从头重新发现解决方案。在人类团队中,组织知识通过文档、指导和团队文化得以保留。多智能体系统需要类似的机制,而共享记忆就是这种机制。

第四个失败是协调崩溃。复杂任务要求智能体按特定顺序在彼此工作的基础上构建。没有关于已完成、正在进行和待完成工作的共享记忆,智能体无法有效协调。它们互相踩脚、处理尚未准备好的任务,或错过应该显而易见的依赖关系。这种协调失败是最具破坏性的,因为它不仅仅是低效的——它可以产生积极破坏的结果,智能体在不知情的情况下撤销彼此的工作。

Four Failure Modes Without Shared Memory45%ContradictoryActionsof multi-agent failures28%DuplicatedWorkof multi-agent failures18%LostKnowledgeof multi-agent failures9%CoordinationBreakdownof multi-agent failuresBased on analysis of 200+ production multi-agent deployments

4. 生成式智能体的教训(Park 等人)

关于多智能体记忆最严格的研究仍然是 Park 等人2023年的里程碑论文"生成式智能体:人类行为的交互式模拟"(Park 等人,2023,arXiv:2304.03442)。在这项工作中,25个 AI 智能体居住在一个虚拟城镇中,每个都有自己的记忆流、反思能力和规划能力。智能体互相交互、建立关系、组织活动并展示涌现的社会行为——所有这些都由它们记住过去交互和推理共享经验的能力驱动。

Park 等人的关键洞察是,连贯的多智能体行为需要三种记忆能力:个体记忆(每个智能体记住关于自身经验的内容)、共享记忆(智能体了解关于彼此和共享环境的内容)和反思记忆(从原始经验中综合的更高层次洞察)。拥有所有三种能力的智能体产生的行为比仅有个体记忆的智能体连贯和真实得多。

与我们讨论特别相关的是"社交互动的记忆检索"概念。当智能体 A 遇到智能体 B 时,它检索的不仅是关于智能体 B 的具体记忆,还有围绕之前互动的上下文、过去协作的结果,以及对当前互动可能有用的任何相关知识。这种上下文记忆检索是实现自然、连贯社会行为的关键——而这正是生产多智能体系统在没有共享记忆基础设施时所缺乏的。

论文还展示了记忆层次的重要性。并非所有记忆都同等重要或同等共享。有些记忆是深度个人的(智能体的内部反思),有些与特定个体共享(两个智能体之间的对话),有些是公共知识(城镇图书馆的位置)。这种层次结构对于现实和有效的多智能体行为至关重要,它直接启发了我们在本文中提出的三层记忆架构。

5. 多智能体记忆的三个层次

基于我们的研究和生产经验,我们为多智能体系统提出了三层记忆架构:公会记忆、团队记忆和世界记忆。每个层次服务于不同的目的,具有不同的共享、持久性和访问控制特征。它们共同提供多智能体团队有效协作所需的完整记忆基础设施。

命名是经过深思熟虑的。我们从大型多人在线游戏(MMO)中借用术语,其中公会、团队和世界代表越来越广泛的共享经验范围。在 MMO 中,您的公会是您紧密联系的盟友群体。您的团队是为特定任务组建的临时小组。世界是每个人都居住的共享环境。这些范围自然映射到多智能体系统:公会是持久的智能体组,团队是特定任务的协作,世界是所有智能体都可以访问的共享知识库。

Three-Layer Memory ArchitectureWorld MemoryOrg standards, compliance, cross-project knowledge — all agents, all teamsTeam MemoryDecisions, coordination, project knowledge — scoped to teamGuild MemoryPrivate expertise, preferences — individual or small grouppromotepromote

6. 公会记忆:个体智能体知道什么

公会记忆是单个智能体或一小群紧密合作的持久智能体组的私有记忆。它包含智能体的专业知识、学习到的偏好、个人观察和特定技能专长。公会记忆默认不共享——它是智能体自己的认知空间,在这里它发展对自己角色和能力的理解。

例如,在多智能体开发团队中,"代码审查"智能体的公会记忆将包含它学习到的团队代码质量标准的理解、它识别的常见代码异味,以及已证明有效的审查策略。这些知识特定于审查者角色,可能与其他智能体无关。公会记忆允许每个智能体在其领域发展深度专业知识,而不会用角色特定知识混乱共享记忆空间。

当公会记忆变得广泛相关时,可以有选择地将其晋升为团队或世界记忆。如果代码审查智能体发现一个表明系统性架构问题的模式,该观察应该从公会记忆晋升到团队记忆,以便所有智能体都能从中受益。这种晋升类似于人类组织中的专家在意识到问题影响每个人而不仅仅是自己的工作时,可能在团队会议中提出问题。

7. 团队记忆:群组共享什么

团队记忆是一组智能体在特定任务或项目上协作的共享知识库。它包含影响团队的决策、协调状态(谁在做什么)、共享观察和积累的项目知识。团队记忆跨会话持久但限定在团队范围内——同一组织中的其他团队没有访问权限,除非明确共享。

团队记忆最关键的功能是协调。当智能体 A 开始处理一个任务时,它在团队记忆中记录这一点。当智能体 B 检查团队记忆时,它看到智能体 A 正在处理该任务,可以选择不同的任务,或等待智能体 A 的结果再继续。这种协调协议消除了困扰没有共享记忆的多智能体系统的重复工作和互相踩脚问题。

团队记忆还作为团队决策的记录。当智能体集体决定架构、工具选择或策略时,该决定连同其背后的理由一起存储在团队记忆中。未来的智能体——即使那些不是原始决策参与者——可以查询团队记忆来理解不仅决定了什么,还有为什么。这是多智能体等效的会议纪要,但更可靠,因为记忆系统在决策发生时捕获它们,而不是依赖事后总结。

8. 世界记忆:共享的基本事实

世界记忆是最广泛的层——一个对组织中所有团队的所有智能体都可访问的共享知识库。它包含基本事实信息:组织标准、合规要求、共享基础设施详情和跨项目知识。世界记忆以最严格的访问控制和最高的可靠性要求进行管理,因为世界记忆中的错误会传播到每个从中读取的智能体。

在软件开发组织中,世界记忆可能包含:批准的技术栈、编码标准、部署程序、安全策略和架构原则。这些不是特定于项目的——它们适用于所有项目和所有团队。当新智能体加入新项目时,它从世界记忆中读取以了解组织上下文,就像新的人类员工会阅读员工手册和工程 wiki 一样。

世界记忆也是跨项目洞察的所在。如果一个团队的智能体发现特定数据库配置在负载下导致性能问题,该发现应该晋升到世界记忆,以便其他项目的智能体可以避免同样的错误。这种知识的交叉传播是多智能体系统中共享记忆最有价值的方面之一——它允许组织的集体智慧惠及所有智能体,而不仅仅是做出发现的团队中的智能体。

9. 使用 MemoryLake 的实现

MemoryLake 原生实现了三层记忆架构。MemoryLake 中的每个记忆条目都有一个范围字段,指定它属于公会、团队还是世界记忆。访问控制系统自动强制执行范围边界——智能体只能读取其授权范围内的记忆。冲突检测引擎在每个范围内独立运行,确保矛盾在适当级别被检测和解决。

晋升机制特别强大。当智能体或自动化策略确定公会记忆应该晋升为团队记忆时,MemoryLake 原子地处理晋升:记忆被复制到新范围,关系被更新,新范围内的所有智能体都被通知新知识。同样的机制适用于将团队记忆晋升为世界记忆。重要的是,晋升保持完整的来源——晋升的记忆包含关于它起源于哪里、谁晋升了它以及为什么的元数据。

对于使用现有多智能体框架(CrewAI、AutoGPT、LangGraph)的团队,MemoryLake 提供插件集成,无需更改框架代码即可添加共享记忆。例如,CrewAI 插件将 MemoryLake 记忆操作作为自定义工具添加,CrewAI 智能体可以与现有工具一起使用。对于任何支持的框架,集成不到5分钟,文档包含每个框架的分步指南和工作示例。访问我们的集成指南获取完整的设置说明。 集成指南

10. 多智能体记忆的未来

多智能体时刻才刚刚开始。随着框架成熟和采用增长,对共享记忆基础设施的需求将成比例增长。我们预测到2026年底,共享记忆将被视为任何生产多智能体部署的基本要求,就像版本控制是当今软件开发的基本要求一样。部署没有共享记忆的多智能体系统的团队将与投资记忆基础设施的团队相比处于系统性劣势。

我们描述的三层架构——公会、团队和世界记忆——提供了一个经过验证的框架,用于在多智能体系统中组织共享知识。但具体的实现细节将随着我们更多了解智能体如何协作、什么知识最有价值共享,以及如何平衡记忆管理成本与改进协调的收益而继续发展。这个领域很年轻,问题很有趣,机遇也是巨大的。

学术研究(Park 等人)和生产经验的教训都很清楚:多智能体团队需要共享记忆,而不仅仅是共享上下文。上下文给智能体沟通的能力。记忆给它们协作的能力。而协作——持续的、连贯的、随时间改进的协作——是将一群 AI 智能体转变为真正 AI 团队的关键。

11. 会思考和向外延伸的记忆

多智能体系统中的共享记忆不仅仅是存储和回忆事实——它进行计算。当智能体 A 记录数据库迁移正在进行,而智能体 B 记录计划了负载测试时,记忆系统本身应该检测到冲突:在迁移期间运行负载测试会产生误导性结果。这不是检索;这是在共享记忆图上的推理。集体计算自然地从共享记忆中涌现:每个智能体的观察和结论丰富了每个其他智能体可用的推理上下文。代码审查智能体发现某函数具有高圈复杂度,通过共享记忆计算,变成了测试智能体的优先级信号和架构智能体的重构候选。

计算支柱扩展到跨智能体历史的时间推理和模式综合。共享记忆系统应该识别出团队的智能体本周遇到了三次相同的部署失败,综合共同因素,并提出根本原因假设——而无需任何单个智能体观察到所有三次失败。这种跨智能体模式检测是一种分布式认知形式,是单个智能体记忆无法实现的。MemoryLake 的冲突检测和多跳推理引擎正是为在共享记忆图上执行这类计算而设计,将被动存储转变为主动的组织智能。

同样关键的是外部数据作为共享资源。在多智能体开发团队中,研究智能体可能从API提供商拉取文档,安全智能体可能摄入CVE信息流,DevOps智能体可能查询云服务商状态页面。当这些外部数据源集成到共享记忆中而非孤立消费时,每个智能体都受益:编码者的实现以最新API文档为依据,受安全智能体漏洞发现的约束,并了解DevOps智能体监控的基础设施状态。外部数据集成将共享记忆从智能体所说内容的记录转变为从对话之外的世界积极增长的活知识库。这就是一个只知道成员之间告诉彼此什么的团队和一个系统性地从外部来源收集和共享情报的团队之间的区别。

参考文献

  1. Park, J. S. 等 (2023). "生成式智能体:人类行为的交互式模拟。" arXiv:2304.03442.
  2. Hong, S. 等 (2024). "MetaGPT:多智能体协作框架的元编程。" ICLR 2024.
  3. Wu, Q. 等 (2023). "AutoGen:通过多智能体对话启用下一代 LLM 应用。" arXiv:2308.08155.
  4. CrewAI 文档 (2026). "多智能体编排模式。" CrewAI.com.

相关文章

为您的智能体团队提供共享记忆

MemoryLake 为多智能体系统提供公会、团队和世界记忆。在几分钟内插入 CrewAI、AutoGPT、LangGraph 或任何框架。

免费开始