LongMemEval-V2: Evaluating Long-Term Agent Memory Toward Experienced Colleagues

核心发现

方法论

本文提出了LongMemEval-V2，一个评估代理系统长期记忆能力的基准。采用两种记忆方法：AgentRunbook-R和AgentRunbook-C。AgentRunbook-R基于RAG技术，使用知识池来存储原始状态观察、事件和策略笔记。AgentRunbook-C则将轨迹存储为文件，并利用编码代理在增强的沙盒中收集证据。

关键结果

AgentRunbook-C在实验中表现最佳，平均准确率达到72.5%，超过最强RAG基线的48.5%和现成编码代理基线的69.3%。
尽管AgentRunbook-C在准确性方面有显著提升，但其基于编码代理的方法存在较高的延迟成本。
AgentRunbook-C在准确性-延迟的帕累托前沿上取得进展，但仍有很大的改进空间。

研究意义

该研究为开发能够将环境经验转化为可重用知识的长期记忆系统提供了一个挑战性测试平台。它填补了现有基准在评估代理系统环境特定经验内化能力上的空白，推动了代理系统在复杂环境中的应用。

技术贡献

本文的技术贡献在于提出了一种新的记忆系统评估标准，并开发了两种记忆方法。AgentRunbook-C通过文件管理问题的视角来处理记忆管理，提供了一种创新的解决方案。相比于现有的代理记忆方法，本文的方法在准确性和效率上都有显著提升。

新颖性

LongMemEval-V2是第一个在代理环境中扩展历史长度到数千万个令牌的基准。与最相关的工作相比，它提供了更复杂的上下文和新的能力分类，专注于代理经验记忆。

局限性

尽管AgentRunbook-C在准确性上表现突出，但其高延迟成本限制了实际应用中的效率。
现有的方法在处理多模态上下文时仍有提升空间，尤其是在复杂环境中。
未来的研究需要进一步优化记忆系统的效率，以便在实时应用中更好地发挥作用。

未来方向

未来的研究方向包括优化记忆系统的效率，探索更复杂的环境和多模态上下文，开发更强大的代理系统以提高环境适应能力。

AI 总览摘要

在现代网络环境中，代理系统的成功依赖于长期记忆能力，能够回忆界面功能、状态动态、工作流程和重复的失败模式。然而，现有的记忆基准大多关注用户历史、短期轨迹或下游任务成功，未能直接评估记忆系统是否有效地内化环境特定经验。为填补这一空白，本文引入了LongMemEval-V2，一个用于评估记忆系统是否能帮助代理在定制环境中获取成为知识丰富的同事所需经验的基准。LME-V2包含451个手动整理的问题，覆盖五个核心记忆能力：静态状态回忆、动态状态跟踪、工作流程知识、环境陷阱和前提意识。这些问题与包含最多500个轨迹和115M个令牌的历史轨迹配对。我们使用上下文收集公式：记忆系统消耗历史轨迹并返回紧凑的证据以供下游问题回答。我们提出了一套两种记忆方法：AgentRunbook-R，一种基于RAG的高效记忆，具有原始状态观察、事件和策略笔记的知识池；以及AgentRunbook-C，它将轨迹存储为文件，并调用编码代理在增强的沙盒中收集证据。实验表明，AgentRunbook-C以72.5%的平均准确率表现最佳，超过最强RAG基线（48.5%）和现成编码代理基线（69.3%）。尽管性能提升显著，基于编码代理的方法存在较高的延迟成本。虽然AgentRunbook-C在准确性-延迟的帕累托前沿上取得进展，但仍有很大的改进空间。总之，这些结果确立了LME-V2作为开发长期记忆系统以转化环境经验的挑战性测试平台。

长期记忆帮助大型语言模型（LLM）超越其上下文和参数，通过长时间存储和回忆信息。记忆对代理系统尤为重要，LLM在多个步骤中与专业环境互动。最近的研究表明，记忆任务程序、界面功能和隐藏的失败模式在推理时提高了代理性能。然而，代理上下文中的记忆基准仍然有限。现有记忆工作主要评估长文档或用户聊天历史的检索和推理。最近的工作考虑评估代理轨迹上的记忆，但通常使用简化的游戏环境，强调一个或几个轨迹内的有限依赖关系，或通过下游任务成功间接评估。因此，它们提供了有限的洞察力，无法确定记忆系统是否能从复杂环境的持续互动中积累整体的环境特定知识。为了突出这一观点，本文使用以下框架：高质量的记忆使代理在专业环境中成为经验丰富的同事。基于这一观点，我们引入了LongMemEval-V2，一个用于评估记忆系统是否能帮助网络代理获取成为知识丰富的同事所需经验的基准。LME-V2利用定制网站，包括Magento购物、购物管理、Postmill论坛和来自WebArena和WorkArena的ServiceNow。从任务解决的网络代理轨迹中，我们手动整理了451个问题，覆盖五个核心记忆能力：静态状态回忆、动态状态跟踪、工作流程知识、环境陷阱和前提意识。我们在图1中提供了示例，并在§3.1中定义了能力。这些问题特定于定制环境，因此最近的前沿LLM通常无法回答。LME-V2进一步将问题与一系列网络代理轨迹配对（“干草堆”，根据Kamradt），其中只有一小部分包含每个问题的答案（“针”）。LME-V2-Small提供了一个100轨迹的干草堆，所有问题共享，LME-V2-Medium有500轨迹的问题特定干草堆。与之前的基准相比，LME-V2提出了新的挑战，其深度上下文（小/中层25M/115M个令牌）和全面的记忆能力覆盖。

LME-V2评估记忆系统是否能智能地存储和过滤来自嘈杂代理轨迹的信息，保留低级观察以及高级环境动态和程序知识。结果，流行的代理记忆方法的简单应用可能无效，因为它们倾向于较少嘈杂的对话上下文或高级战略知识。在本文中，我们提出了AgentRunbook，一个简单但有效的基线，由两个变体组成，分别优化效率和准确性。AgentRunbook-R是一个高效的检索增强生成（RAG）管道，灵感来自代理记忆工作。它提示LLM控制器更新并主动查询三个知识池：原始观察、状态转换事件和高级策略笔记。AgentRunbook-R高效且覆盖主要记忆能力，但其简单设计未针对详细证据选择进行优化。受Cao等人启发，我们提出了AgentRunbook-C，一种基于编码代理的记忆方法，将记忆管理视为文件管理问题。AgentRunbook-C直接将原始轨迹存储为文件。在查询时，它增强现成的编码代理工具，结合工作流程文档、记忆清单和辅助脚本，然后调用代理组装紧凑的证据集。

我们在LME-V2的小型和中型层上评估记忆设计。首先，简单的RAG方法检索状态切片只能达到40.1%的总体准确率，AgentRunbook-R进一步提高到57.8%。在准确性方面，我们发现现成的Codex代理具有竞争力，达到惊人的69.3%准确率。然而，代理以每次查询约182秒的成本实现这一目标，比AgentRunbook-R慢约6.9倍。通过我们的专业设计，AgentRunbook-C整体表现最佳，准确率为72.5%，查询时比Codex快32%。我们的进一步分析揭示了AgentRunbook-C显著推进了准确性-延迟前沿，但未来改进空间仍然很大。总体而言，LME-V2制定了代理记忆评估的新标准，并提供了一个具体的测试平台，使长期运行的代理在现实环境中更可靠、适应性更强、更有用。

深度分析

研究背景

长期记忆在人工智能领域中扮演着关键角色，尤其是在代理系统中。随着大型语言模型（LLM）的发展，研究者们开始关注如何通过记忆系统来增强这些模型的能力，使其能够在复杂环境中长时间运行并保持高效。早期的研究主要集中在信息检索和指令遵循上，处理长输入文档。随着个性化记忆的需求增加，研究逐渐扩展到覆盖显性用户事实和隐性偏好。然而，现有的基准在评估代理系统的记忆能力时仍然有限，通常只关注简单的游戏环境或用户聊天历史。LongMemEval-V2的出现标志着一种新的转变，它专注于代理系统的经验记忆，构建复杂的上下文，并提供新的能力分类。

核心问题

代理系统在复杂的网络环境中运行时，需要具备长期记忆能力，以便有效地内化环境特定经验。这种能力不仅包括对界面功能的记忆，还涉及状态动态、工作流程和重复失败模式的识别。然而，现有的记忆基准未能直接评估这些能力，通常只关注用户历史或下游任务成功。为了填补这一空白，LongMemEval-V2提出了一种新的评估标准，旨在验证记忆系统是否能帮助代理在定制环境中获取成为知识丰富的同事所需的经验。

核心创新

LongMemEval-V2的核心创新在于其评估框架和记忆方法。首先，它提供了一个全面的基准，覆盖五个核心记忆能力：静态状态回忆、动态状态跟踪、工作流程知识、环境陷阱和前提意识。其次，提出了两种记忆方法：AgentRunbook-R和AgentRunbook-C。AgentRunbook-R基于RAG技术，使用知识池来存储原始状态观察、事件和策略笔记。AgentRunbook-C则将轨迹存储为文件，并利用编码代理在增强的沙盒中收集证据。这些创新不仅提高了记忆系统的准确性，还改善了查询效率。

方法详解

�� AgentRunbook-R：基于RAG技术，使用知识池存储原始状态观察、事件和策略笔记。通过LLM控制器生成检索查询，支持多模态记忆上下文。 • AgentRunbook-C：将轨迹存储为文件，利用编码代理在增强的沙盒中收集证据。添加轻量级脚手架组件，包括工作流程文档、查询时渲染的清单和辅助脚本。 • 评估框架：使用上下文收集公式，记忆系统消耗历史轨迹并返回紧凑的证据以供下游问题回答。报告答案准确率和查询延迟。

实验设计

实验设计包括使用LME-V2的小型和中型层进行评估。数据集包括Magento购物、购物管理、Postmill论坛和ServiceNow。基线包括简单的RAG方法和现成的编码代理。关键超参数包括检索查询的生成和记忆上下文的截断预算。消融研究分析了不同知识池和脚手架组件对性能的影响。

结果分析

实验结果表明，AgentRunbook-C在准确性上表现最佳，达到72.5%的平均准确率。相比之下，最强RAG基线仅达到48.5%，而现成编码代理基线为69.3%。消融研究显示，工作流程指令和清单工件对效率有显著影响，而辅助函数对小型层结果有积极作用。总体而言，AgentRunbook-C在准确性和延迟的权衡上表现优异。

应用场景

LongMemEval-V2的应用场景包括复杂网络环境中的代理系统评估和优化。直接用例包括电子商务网站的客户服务代理和论坛管理系统中的自动化助手。行业影响涉及提高代理系统的环境适应能力和用户体验。

局限与展望

尽管LongMemEval-V2在评估代理系统记忆能力上取得了显著进展，但仍存在一些局限性。首先，基于编码代理的方法存在较高的延迟成本，限制了实时应用中的效率。其次，现有的方法在处理多模态上下文时仍有提升空间，尤其是在复杂环境中。未来的研究需要进一步优化记忆系统的效率，以便在实时应用中更好地发挥作用。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。厨房就是一个复杂的环境，而你就是一个代理系统。为了做好饭，你需要记住食材的位置、烹饪步骤和常见的错误。现有的记忆基准就像是一本食谱，只告诉你怎么做，但没有教你如何在这个特定的厨房里工作。LongMemEval-V2就像是一个厨师培训课程，帮助你在这个特定的厨房里成为一个经验丰富的厨师。它不仅教你如何记住食材的位置，还教你如何处理烹饪过程中出现的各种问题。通过这种方式，你可以在厨房里更高效地工作，做出更美味的食物。就像在厨房里一样，代理系统在复杂的网络环境中也需要这种长期记忆能力，以便更好地完成任务。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在玩一个超级复杂的游戏，里面有很多关卡和任务。为了赢得游戏，你需要记住每个关卡的规则、敌人的攻击模式和隐藏的陷阱。现有的游戏攻略就像是一本说明书，只告诉你怎么过关，但没有教你如何在这个特定的游戏中成为高手。LongMemEval-V2就像是一个游戏训练营，帮助你在这个特定的游戏中成为一个经验丰富的玩家。它不仅教你如何记住每个关卡的规则，还教你如何处理游戏过程中出现的各种问题。通过这种方式，你可以在游戏中更高效地过关，成为游戏中的高手。就像在游戏中一样，代理系统在复杂的网络环境中也需要这种长期记忆能力，以便更好地完成任务。

术语表

长期记忆 (Long-term Memory)

指代理系统能够在长时间内存储和回忆信息的能力。

在论文中用于评估代理系统在复杂环境中的表现。

代理系统 (Agent System)

一种能够在网络环境中执行任务的自动化系统。

在论文中用于评估长期记忆能力。

RAG (Retrieval-Augmented Generation)

一种结合检索和生成的技术，用于提高记忆系统的效率。

在论文中用于AgentRunbook-R的方法。

编码代理 (Coding Agent)

一种能够执行编码任务的自动化代理。

在论文中用于AgentRunbook-C的方法。

环境经验 (Environment Experience)

代理系统在特定环境中积累的知识和技能。

在论文中用于评估记忆系统的表现。

知识池 (Knowledge Pool)

用于存储代理系统在环境中观察到的信息的结构。

在论文中用于AgentRunbook-R的方法。

沙盒 (Sandbox)

一种用于测试和评估代理系统的方法。

在论文中用于AgentRunbook-C的方法。

工作流程 (Workflow)

代理系统在环境中执行任务的步骤和过程。

在论文中用于评估记忆系统的表现。

环境陷阱 (Environment Gotchas)

代理系统在环境中可能遇到的常见问题和挑战。

在论文中用于评估记忆系统的表现。

前提意识 (Premise Awareness)

代理系统能够识别环境中的假设和前提的能力。

在论文中用于评估记忆系统的表现。

开放问题这项研究留下的未解疑问

1 现有的记忆基准未能直接评估代理系统的环境特定经验内化能力。需要开发新的评估标准和方法，以验证记忆系统是否能帮助代理在复杂环境中获取经验。
2 基于编码代理的方法存在较高的延迟成本，限制了实时应用中的效率。需要进一步优化记忆系统的效率，以便在实时应用中更好地发挥作用。
3 现有的方法在处理多模态上下文时仍有提升空间，尤其是在复杂环境中。需要开发更强大的代理系统，以提高环境适应能力。
4 代理系统在复杂环境中运行时，需要具备长期记忆能力，以便有效地内化环境特定经验。需要开发新的记忆方法，以提高代理系统的准确性和效率。
5 LongMemEval-V2提供了一个全面的基准，覆盖五个核心记忆能力。然而，仍需进一步研究以验证这些能力在不同环境中的表现。

应用场景

近期应用

电子商务网站客户服务代理

通过LongMemEval-V2评估和优化客户服务代理的记忆能力，提高用户体验和服务效率。

论坛管理系统中的自动化助手

利用LongMemEval-V2评估和优化论坛管理系统中的自动化助手，提高信息处理能力和用户互动体验。

复杂网络环境中的代理系统评估

通过LongMemEval-V2评估代理系统在复杂网络环境中的表现，优化其记忆能力和环境适应能力。

远期愿景

代理系统的环境适应能力

通过优化记忆系统，提高代理系统在复杂环境中的适应能力，推动其在更多领域的应用。

多模态上下文处理能力

开发更强大的代理系统，以提高其处理多模态上下文的能力，推动其在复杂环境中的应用。

原文摘要

Long-term memory is crucial for agents in specialized web environments, where success depends on recalling interface affordances, state dynamics, workflows, and recurring failure modes. However, existing memory benchmarks for agents mostly focus on user histories, short traces, or downstream task success, leaving open how to directly evaluate whether memory systems effectively internalize environment-specific experience. To address this gap, we introduce LongMemEval-V2 (LME-V2), a benchmark for evaluating whether memory systems can help agents acquire the experience needed to become knowledgeable colleagues in customized environments. LME-V2 contains 451 manually curated questions covering five core memory abilities for web agents: static state recall, dynamic state tracking, workflow knowledge, environment gotchas, and premise awareness. Questions are paired with history trajectories containing up to 500 trajectories and 115M tokens. We use a context gathering formulation: memory systems consume history trajectories and return compact evidence for downstream question answering. We propose a suite of two memory methods: AgentRunbook-R, an efficient RAG-based memory with knowledge pools for raw state observations, events, and strategy notes, and AgentRunbook-C, which stores trajectories as files and invokes a coding agent to gather evidence in an augmented sandbox. Experiments show that AgentRunbook-C achieves the best performance with 72.5% average accuracy, outperforming the strongest RAG baseline (48.5%) and the off-the-shelf coding agent baseline (69.3%). Despite the strong performance gains, coding agent based methods have high latency costs. While AgentRunbook-C advances the accuracy-latency Pareto frontier, substantial room for improvement remains. Together, these results establish LME-V2 as a challenging testbed for developing long-term memory systems for environment experience.

cs.CL

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

长期记忆 (Long-term Memory)

代理系统 (Agent System)

RAG (Retrieval-Augmented Generation)

编码代理 (Coding Agent)

环境经验 (Environment Experience)

知识池 (Knowledge Pool)

沙盒 (Sandbox)

工作流程 (Workflow)

环境陷阱 (Environment Gotchas)

前提意识 (Premise Awareness)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

电子商务网站客户服务代理

论坛管理系统中的自动化助手

复杂网络环境中的代理系统评估

远期愿景

代理系统的环境适应能力

多模态上下文处理能力

原文摘要

相关论文

The Register Gap: A Meaning Intelligence Framework for Nigerian Public Discourse

Learning User Simulators with Turing Rewards

RubricsTree: Scalable and Evolving Open-Ended Evaluation of Personal Health Agents across Health Memory and Medical Skills

Benchmarking LLM Agents on Meta-Analysis Articles from Nature Portfolio

Characterizing Cultural Localization in AI-Generated Stories

Operads for compositional reasoning in LLMs

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问