Multi-Agent Transactive Memory

TL;DR

提出多智能体交易记忆（MATM）框架，通过共享轨迹提升异构智能体群体的任务表现，实验显示成功率提升8%，步骤减少0.59。

cs.AI 🔴 高级 2026-06-18 19 次浏览

To Eun Kim Xuhong He Dishank Jain Ambuj Agrawal Negar Arabzadeh Fernando Diaz

多智能体系统知识共享轨迹检索强化学习大规模交互环境

核心发现

方法论

本文提出基于交易记忆（transactive memory）的多智能体知识共享框架MATM，核心机制包括：• 通过共享存储库存放智能体生成的轨迹数据，• 利用状态条件索引对轨迹进行检索，• 引入学习排序（LTR）模型优化检索结果。具体实现包括：• 轨迹编码采用共享的嵌入函数f，将动作-观察序列转化为向量表示；• 采用基于状态的键值索引，利用最近的交互历史作为检索键，存储后续交互段作为值；• 构建候选轨迹集后，利用训练的LTR模型（如LambdaMART、SVMRank）对检索结果进行排序，提升相关性。实验中在ALFWorld和WebArena两个交互环境中，采集多源轨迹数据，训练LTR模型，并在不同智能体上进行评估。

关键结果

在ALFWorld环境中，使用MATM后，成功率从47%提升至55%，提升8个百分点，平均交互步骤从11.77降至11.18，RPP指标由-0.16改善至-0.05，表明检索增强显著提升任务效率和成功率。
在WebArena环境中，成功率由18%提升至20%，步骤数由22.0降至20.3，RPP由-0.05提升至0.03，尽管提升幅度较小，但验证了MATM在长序列任务中的有效性。
引入LTR模型后，检索质量进一步提升，ALFWorld中SVMRank模型成功率达到64.3%，比单阶段检索提升17.2%，步骤减少至10.35，验证了排序优化的有效性。

研究意义

该研究突破了传统单智能体学习的局限，通过构建跨智能体的交易记忆体系，实现了知识的集体积累与复用，极大提升了多智能体系统的效率和适应性。尤其在复杂交互环境中，减少了重复探索成本，为未来大规模异构智能体生态系统的构建提供了基础架构，有望推动智能体自主学习、协作与知识管理的深度融合，具有重要的理论和应用价值。

技术贡献

技术创新主要体现在：• 提出基于状态条件索引的轨迹检索机制，有效应对长序列交互数据的高效匹配；• 引入学习排序（LTR）模型优化检索结果，显著提升相关性和任务表现；• 构建跨智能体的共享存储体系，实现轨迹的持续积累与动态更新，突破了传统单智能体的知识封闭局限。这些创新为多智能体系统的知识管理提供了新的技术路径，推动了检索增强学习（RAG）在多智能体场景中的应用落地。

新颖性

本文首次提出将交易记忆（transactive memory）概念引入多智能体轨迹共享体系，结合状态条件索引与学习排序技术，构建动态、可扩展的知识存储与检索框架。不同于以往仅关注单智能体内部记忆或集中式知识库，MATM实现了异构智能体在开放环境中的去中心化知识共享，解决了轨迹重复探索和知识孤岛的问题，为多智能体系统的协作与自主学习开辟了新路径。

局限性

当前方法主要依赖于轨迹的质量和丰富性，若轨迹数据不足或偏差较大，检索效果会受到影响，限制了系统的泛化能力。
在极端长序列或高复杂度任务中，状态索引可能面临高维匹配困难，检索效率和准确性有待提升。
模型训练和索引维护需要较高的计算资源，尤其在大规模多智能体系统中，成本和延迟可能成为实际应用的瓶颈。

未来方向

未来研究将聚焦于：• 开发更高效的索引结构和检索算法，以支持更大规模的智能体群体；• 引入多模态轨迹（如图像、视频）以丰富知识表达形式；• 探索自适应排序模型，动态调整检索策略以应对环境变化；• 实现跨任务迁移与知识蒸馏，提升系统的泛化能力和自主学习能力。

AI 总览摘要

在当今多智能体系统快速发展的背景下，如何实现异构智能体之间的知识共享与协作，成为研究的核心难题。传统方法多依赖集中式知识库或单智能体内部记忆，难以应对大规模、多样化环境的复杂需求。本文提出了多智能体交易记忆（MATM）框架，借鉴人类社会中的集体记忆机制，构建了一个分布式、动态可扩展的轨迹存储与检索系统。

MATM的核心思想是：每个智能体在执行任务时生成的交互轨迹被存入共享存储库，其他智能体可以根据当前状态检索相关轨迹，辅助任务完成。该系统采用状态条件索引机制，将长序列交互数据转化为紧凑的向量表示，结合学习排序模型（如LambdaMART和SVMRank）优化检索结果，显著提升检索的相关性和实用性。

在ALFWorld和WebArena两个交互环境中，实验结果显示：引入MATM后，成功率分别提升8%和2%，平均交互步骤减少约0.6步，验证了其在复杂任务中的有效性。特别是在引入LTR模型后，性能进一步提升，ALFWorld成功率达到64.3%，比传统检索方法提升了17.2个百分点。

这一创新架构不仅提高了多智能体系统的效率，也为未来实现大规模自主学习、协作与知识管理提供了技术基础。通过持续积累和动态检索，系统能够不断优化行为策略，减少重复探索，增强适应性。这种跨智能体的知识共享机制，有望在机器人、虚拟助手、自动驾驶等多个行业中实现广泛应用。

然而，当前方法仍存在轨迹质量依赖、长序列匹配难题和高计算成本等局限。未来工作将致力于索引结构优化、多模态知识融合和迁移学习的探索，以推动多智能体系统的智能化水平迈上新台阶。总之，MATM为多智能体系统的知识共享提供了一种具有高度可扩展性和实用性的解决方案，具有深远的学术和工业价值。

深度解读

原文摘要

The decentralized deployment of LLM agents with diverse capabilities across diverse tasks motivates infrastructure for knowledge sharing across heterogeneous agent populations. Just as search engines index human-generated artifacts to support human problem solving, retrieval systems can organize agent-generated artifacts for reuse across agent populations. We extend retrieval-augmented generation - which demonstrates the value of human-authored artifacts to individual agents - to retrieval of agent-generated artifacts supporting a population of agents. In particular, agent trajectories encode reusable procedural knowledge, yet these artifacts are typically discarded after a single use or retained only by the producing agent, forcing newly instantiated agents to repeatedly rediscover existing solutions. We propose Multi-Agent Transactive Memory (MATM), a framework for population-level storage and retrieval of agent-generated trajectories, where producer agents contribute trajectories to a shared repository and consumer agents retrieve them to improve task execution. We focus on interactive environments (ALFWorld and WebArena), where trajectories are long and encode especially rich procedural structure. Our experiments demonstrate that retrieving trajectories from MATM improves downstream task performance and reduces interaction steps without coordination or joint training. These results position MATM as a design pattern for population-level experience sharing in open agent ecosystems.

cs.AI cs.CL cs.IR

Multi-Agent Transactive Memory

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

相关论文

DeepSWIP: Quotient-WMC Counterfactuals for Neural Probabilistic Logic Programs

DRFLOW: A Deep Research Benchmark for Personalized Workflow Prediction

Abstracting Cross-Domain Action Sequences into Interpretable Workflows

Automated reproducibility assessments in the social and behavioral sciences using large language models

The Role of Feedback Alignment in Self-Distillation

A History-Aware Visually Grounded Critic for Computer Use Agents