MEME: Multi-entity & Evolving Memory Evaluation

TL;DR

MEME通过多实体和动态记忆评估揭示现有系统在依赖推理任务上的不足。

cs.LG 🔴 高级 2026-05-13 168 次浏览
Seokwon Jung Alexander Rubinstein Arnas Uselis Sangdoo Yun Seong Joon Oh
多实体 动态记忆 依赖推理 LLM 评估基准

核心发现

方法论

MEME提出了一种新的评估框架,专注于多实体和动态记忆的评估。该框架定义了六个任务,包括级联、缺失和删除,这些任务通过有向无环图(DAG)知识图生成,确保了可验证的传播答案。实验在六种记忆系统上进行,涵盖三种记忆范式,揭示了当前系统在依赖推理任务上的失败。

关键结果

  • 在100个控制实验中,所有系统在默认配置下的依赖推理任务上表现不佳,级联任务平均准确率为3%,缺失任务为1%。即使在提示优化、深度检索和减少填充噪声的情况下,结果仍未显著改善。
  • 只有一个文件型代理与Claude Opus 4.7结合使用时部分缩小了差距,但成本是基线的70倍,表明目前的解决方案在大规模应用中不切实际。
  • 实验揭示了当前记忆系统在处理状态性、相互依赖知识时的盲点,尤其是在级联和缺失任务中。

研究意义

MEME的研究揭示了现有记忆系统在处理动态和多实体信息时的不足,尤其是在依赖推理任务中。这项工作为未来的记忆系统设计提供了重要的指导,强调了在动态环境中处理复杂知识更新的必要性。

技术贡献

MEME通过定义新的任务类型和使用DAG知识图生成数据集,提供了一个全面的记忆评估框架。它揭示了当前记忆系统在依赖推理任务上的结构性缺陷,并提出了潜在的解决方案。

新颖性

MEME首次系统地评估了多实体和动态记忆任务,特别是依赖推理任务。与现有基准不同,MEME不仅关注单实体更新,还涵盖了多实体和动态变化的复杂场景。

局限性

  • 当前评估仅限于两个手工创建的知识图(个人生活和软件项目),可能限制了结果的普适性。
  • 对话数据是由LLM生成的,而非真实用户收集,可能影响现实性。
  • 实验规模有限,仅在100个情境下进行,可能未能揭示更长上下文或更大样本规模下的模式。

未来方向

未来的研究可以扩展到更广泛的领域和人群来源的知识图,以测试MEME的普适性。此外,可以探索新的记忆架构,以便在维护阶段本地传播更新,而不是依赖昂贵的内部LLM。

AI 总览摘要

随着大规模语言模型(LLM)越来越多地充当跨多次会话与用户互动的代理,准确存储、更新和推理过去的交互信息变得至关重要。然而,现有的记忆系统在处理动态和多实体信息时存在显著的不足,尤其是在依赖推理任务中。

MEME提出了一种新的评估框架,专注于多实体和动态记忆的评估。该框架定义了六个任务,包括级联、缺失和删除,这些任务通过有向无环图(DAG)知识图生成,确保了可验证的传播答案。实验在六种记忆系统上进行,涵盖三种记忆范式,揭示了当前系统在依赖推理任务上的失败。

在100个控制实验中,所有系统在默认配置下的依赖推理任务上表现不佳,级联任务平均准确率为3%,缺失任务为1%。即使在提示优化、深度检索和减少填充噪声的情况下,结果仍未显著改善。只有一个文件型代理与Claude Opus 4.7结合使用时部分缩小了差距,但成本是基线的70倍,表明目前的解决方案在大规模应用中不切实际。

MEME的研究揭示了现有记忆系统在处理动态和多实体信息时的不足,尤其是在依赖推理任务中。这项工作为未来的记忆系统设计提供了重要的指导,强调了在动态环境中处理复杂知识更新的必要性。

未来的研究可以扩展到更广泛的领域和人群来源的知识图,以测试MEME的普适性。此外,可以探索新的记忆架构,以便在维护阶段本地传播更新,而不是依赖昂贵的内部LLM。

深度分析

研究背景

随着人工智能技术的发展,大规模语言模型(LLM)在各种应用中变得越来越重要。传统的记忆系统通常关注单实体更新,忽视了多实体和动态变化的复杂场景。现有的基准测试,如RULER和NoLiMa,主要测量单输入内的注意窗口限制,而不是跨会话的持久记忆。多会话基准测试,如LoCoMo和LongMemEval,评估静态偏好保留和知识更新,但未能评估上游变化对依赖实体的影响。

核心问题

现有的记忆系统在处理动态和多实体信息时存在显著的不足,尤其是在依赖推理任务中。依赖推理涉及到如何在上游更新后处理事实变化(级联)、如何在先前有效的答案变得不确定时处理(缺失),以及如何在事实被移除后停止报告(删除)。这些任务揭示了当前记忆系统在处理状态性、相互依赖知识时的盲点。

核心创新

MEME首次系统地评估了多实体和动态记忆任务,特别是依赖推理任务。与现有基准不同,MEME不仅关注单实体更新,还涵盖了多实体和动态变化的复杂场景。通过定义新的任务类型和使用DAG知识图生成数据集,MEME提供了一个全面的记忆评估框架。

方法详解

  • �� MEME定义了六个任务,涵盖多实体和动态记忆的评估。
  • �� 使用有向无环图(DAG)知识图生成数据集,确保了可验证的传播答案。
  • �� 在六种记忆系统上进行实验,涵盖三种记忆范式。
  • �� 通过提示优化、深度检索和减少填充噪声等方法进行实验,以揭示当前系统在依赖推理任务上的失败。

实验设计

实验在六种记忆系统上进行,涵盖三种记忆范式,包括原始检索、LLM处理记忆和文件型代理。使用100个控制实验,评估级联、缺失和删除任务的表现。实验揭示了当前系统在依赖推理任务上的失败,尤其是在级联和缺失任务中。

结果分析

在100个控制实验中,所有系统在默认配置下的依赖推理任务上表现不佳,级联任务平均准确率为3%,缺失任务为1%。即使在提示优化、深度检索和减少填充噪声的情况下,结果仍未显著改善。只有一个文件型代理与Claude Opus 4.7结合使用时部分缩小了差距,但成本是基线的70倍,表明目前的解决方案在大规模应用中不切实际。

应用场景

MEME的研究揭示了现有记忆系统在处理动态和多实体信息时的不足,尤其是在依赖推理任务中。这项工作为未来的记忆系统设计提供了重要的指导,强调了在动态环境中处理复杂知识更新的必要性。

局限与展望

当前评估仅限于两个手工创建的知识图(个人生活和软件项目),可能限制了结果的普适性。对话数据是由LLM生成的,而非真实用户收集,可能影响现实性。实验规模有限,仅在100个情境下进行,可能未能揭示更长上下文或更大样本规模下的模式。

通俗解读 非专业人士也能看懂

想象一下,你有一个智能助手,它能记住你所有的事情,比如你住在哪里、你喜欢什么、甚至你的工作项目。现在,假设你搬到了一个新城市,你的智能助手不仅要记住这个变化,还要知道之前与你旧住址相关的事情,比如通勤时间或附近设施,可能不再有效。MEME就是为了测试这些智能助手在处理这种变化时的表现。它就像一个测试,看看这些助手能否在多个任务中有效地更新和推理信息。结果显示,许多系统在处理这些复杂变化时表现不佳,尤其是在需要依赖推理的任务中。就像一个学生在考试中遇到难题时,尽管他在其他科目上表现良好,但在这个特定问题上却无法给出正确答案。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!想象一下,你有一个超级酷的智能助手,它能记住你所有的事情,比如你住在哪里、你喜欢什么、甚至你的工作项目。现在,假设你搬到了一个新城市,你的智能助手不仅要记住这个变化,还要知道之前与你旧住址相关的事情,比如通勤时间或附近设施,可能不再有效。MEME就是为了测试这些智能助手在处理这种变化时的表现。结果显示,许多系统在处理这些复杂变化时表现不佳,尤其是在需要依赖推理的任务中。就像一个学生在考试中遇到难题时,尽管他在其他科目上表现良好,但在这个特定问题上却无法给出正确答案。

术语表

多实体 (Multi-entity)

涉及多个实体的信息处理任务。

MEME评估框架中的一个维度。

动态记忆 (Evolving Memory)

随着时间推移进行更新和变化的记忆系统。

MEME评估框架中的一个维度。

依赖推理 (Dependency Reasoning)

处理信息之间的依赖关系并进行推理的能力。

MEME评估的核心任务之一。

级联 (Cascade)

处理上游更新后信息变化的任务。

MEME评估的任务之一。

缺失 (Absence)

处理先前有效的答案变得不确定时的任务。

MEME评估的任务之一。

删除 (Deletion)

处理信息被移除后停止报告的任务。

MEME评估的任务之一。

有向无环图 (DAG)

一种用于表示实体及其依赖关系的图结构。

用于生成MEME评估数据集。

文件型代理 (File-based Agent)

通过工具调用管理持久文件的LLM代理。

MEME评估的记忆系统之一。

Claude Opus 4.7

一种用于部分缩小依赖推理任务差距的LLM。

与文件型代理结合使用。

提示优化 (Prompt Optimization)

通过优化提示来提高系统性能的方法。

用于MEME实验中的一种方法。

开放问题 这项研究留下的未解疑问

  • 1 当前记忆系统在处理动态和多实体信息时的不足,尤其是在依赖推理任务中。需要新的记忆架构,以便在维护阶段本地传播更新。
  • 2 现有评估仅限于两个手工创建的知识图,可能限制了结果的普适性。需要扩展到更广泛的领域和人群来源的知识图。
  • 3 对话数据是由LLM生成的,而非真实用户收集,可能影响现实性。需要真实用户数据来提高评估的现实性。
  • 4 实验规模有限,仅在100个情境下进行,可能未能揭示更长上下文或更大样本规模下的模式。需要更大规模的实验来验证结果。
  • 5 当前系统在依赖推理任务上的失败,表明需要新的解决方案来处理状态性、相互依赖知识的更新。

应用场景

近期应用

智能助手优化

通过改进记忆系统,提高智能助手在动态环境中的表现,尤其是在处理复杂知识更新时。

多实体数据管理

在需要处理多个实体信息的场景中应用MEME框架,以提高数据管理效率。

动态知识库

在企业知识管理中应用MEME框架,以便更好地处理动态信息更新。

远期愿景

全面记忆系统

开发能够本地传播更新的记忆系统,以便在动态环境中处理复杂知识更新。

跨领域应用

将MEME框架扩展到更多领域,以提高记忆系统的普适性和适应性。

原文摘要

LLM-based agents increasingly operate in persistent environments where they must store, update, and reason over information across many sessions. While prior benchmarks evaluate only single-entity updates, MEME defines six tasks spanning the full space defined by the multi-entity and evolving axes, including three not scored by prior work: Cascade and Absence (dependency reasoning) and Deletion (post-removal state). Evaluating six memory systems spanning three memory paradigms on 100 controlled episodes, we find that all systems collapse on dependency reasoning under the default configuration (Cascade: 3%, Absence: 1% in average accuracy) despite adequate static retrieval performance. Prompt optimization, deeper retrieval, reduced filler noise, and most stronger LLMs fail to close this gap. Only a file-based agent paired with Claude Opus 4.7 as its internal LLM partially closes the gap, but at ~70x the baseline cost, indicating closure currently depends on configurations that are not practical at scale. Code and data are available on the project page: https://seokwonjung-jay.github.io/meme-eval/.

cs.LG cs.CL

参考文献 (20)

LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

Di Wu, Hongwei Wang, Wenhao Yu 等

2024 259 引用 ⭐ 高影响力 查看解读 →

Judging LLM-as-a-judge with MT-Bench and Chatbot Arena

Lianmin Zheng, Wei-Lin Chiang, Ying Sheng 等

2023 8403 引用 ⭐ 高影响力 查看解读 →

A Coefficient of Agreement for Nominal Scales

Jacob Cohen

1960 42435 引用 ⭐ 高影响力

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Patrick Lewis, Ethan Perez, Aleksandara Piktus 等

2020 13747 引用 查看解读 →

♫ MuSiQue: Multihop Questions via Single-hop Question Composition

H. Trivedi, Niranjan Balasubramanian, Tushar Khot 等

2021 811 引用 查看解读 →

Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

Yuanzhe Hu, Yu Wang, Julian McAuley

2025 76 引用 查看解读 →

MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents

Haoran Tan, Zeyu Zhang, Chen Ma 等

2025 41 引用 查看解读 →

From Local to Global: A Graph RAG Approach to Query-Focused Summarization

Darren Edge, Ha Trinh, Newman Cheng 等

2024 1415 引用 查看解读 →

A Survey on the Memory Mechanism of Large Language Model-based Agents

Zeyu Zhang, Quanyu Dai, Xiaohe Bo 等

2024 500 引用 查看解读 →

RULER: What's the Real Context Size of Your Long-Context Language Models?

Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman 等

2024 857 引用 查看解读 →

MemGPT: Towards LLMs as Operating Systems

Charles Packer, Vivian Fang, Shishir G. Patil 等

2023 626 引用 查看解读 →

Evaluating Very Long-Term Conversational Memory of LLM Agents

Adyasha Maharana, Dong-Ho Lee, S. Tulyakov 等

2024 430 引用 查看解读 →

NoLiMa: Long-Context Evaluation Beyond Literal Matching

Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt 等

2025 71 引用 查看解读 →

MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions

Zexuan Zhong, Zhengxuan Wu, Christopher D. Manning 等

2023 316 引用 查看解读 →

Unsupervised Dense Information Retrieval with Contrastive Learning

Gautier Izacard, Mathilde Caron, Lucas Hosseini 等

2021 1474 引用 查看解读 →

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

Zhilin Yang, Peng Qi, Saizheng Zhang 等

2018 4396 引用 查看解读 →

DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines

O. Khattab, Arnav Singhvi, Paridhi Maheshwari 等

2023 690 引用 查看解读 →

Evaluating the Ripple Effects of Knowledge Editing in Language Models

Roi Cohen, Eden Biran, Ori Yoran 等

2023 262 引用 查看解读 →

BM25S: Orders of magnitude faster lexical search via eager sparse scoring

Xing Han Lù

2024 107 引用 查看解读 →

Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

P. Chhikara, Dev Khant, Saket Aryan 等

2025 311 引用 查看解读 →