MEME: Multi-entity & Evolving Memory Evaluation

TL;DR

MEME通过多实体和动态记忆评估揭示现有系统在依赖推理任务上的不足。

cs.LG 🔴 高级 2026-05-13 168 次浏览

Seokwon Jung Alexander Rubinstein Arnas Uselis Sangdoo Yun Seong Joon Oh

多实体动态记忆依赖推理 LLM 评估基准

核心发现

方法论

MEME提出了一种新的评估框架，专注于多实体和动态记忆的评估。该框架定义了六个任务，包括级联、缺失和删除，这些任务通过有向无环图（DAG）知识图生成，确保了可验证的传播答案。实验在六种记忆系统上进行，涵盖三种记忆范式，揭示了当前系统在依赖推理任务上的失败。

关键结果

在100个控制实验中，所有系统在默认配置下的依赖推理任务上表现不佳，级联任务平均准确率为3%，缺失任务为1%。即使在提示优化、深度检索和减少填充噪声的情况下，结果仍未显著改善。
只有一个文件型代理与Claude Opus 4.7结合使用时部分缩小了差距，但成本是基线的70倍，表明目前的解决方案在大规模应用中不切实际。
实验揭示了当前记忆系统在处理状态性、相互依赖知识时的盲点，尤其是在级联和缺失任务中。

研究意义

MEME的研究揭示了现有记忆系统在处理动态和多实体信息时的不足，尤其是在依赖推理任务中。这项工作为未来的记忆系统设计提供了重要的指导，强调了在动态环境中处理复杂知识更新的必要性。

技术贡献

MEME通过定义新的任务类型和使用DAG知识图生成数据集，提供了一个全面的记忆评估框架。它揭示了当前记忆系统在依赖推理任务上的结构性缺陷，并提出了潜在的解决方案。

新颖性

MEME首次系统地评估了多实体和动态记忆任务，特别是依赖推理任务。与现有基准不同，MEME不仅关注单实体更新，还涵盖了多实体和动态变化的复杂场景。

局限性

当前评估仅限于两个手工创建的知识图（个人生活和软件项目），可能限制了结果的普适性。
对话数据是由LLM生成的，而非真实用户收集，可能影响现实性。
实验规模有限，仅在100个情境下进行，可能未能揭示更长上下文或更大样本规模下的模式。

未来方向

未来的研究可以扩展到更广泛的领域和人群来源的知识图，以测试MEME的普适性。此外，可以探索新的记忆架构，以便在维护阶段本地传播更新，而不是依赖昂贵的内部LLM。

AI 总览摘要

随着大规模语言模型（LLM）越来越多地充当跨多次会话与用户互动的代理，准确存储、更新和推理过去的交互信息变得至关重要。然而，现有的记忆系统在处理动态和多实体信息时存在显著的不足，尤其是在依赖推理任务中。

在100个控制实验中，所有系统在默认配置下的依赖推理任务上表现不佳，级联任务平均准确率为3%，缺失任务为1%。即使在提示优化、深度检索和减少填充噪声的情况下，结果仍未显著改善。只有一个文件型代理与Claude Opus 4.7结合使用时部分缩小了差距，但成本是基线的70倍，表明目前的解决方案在大规模应用中不切实际。

深度分析

研究背景

随着人工智能技术的发展，大规模语言模型（LLM）在各种应用中变得越来越重要。传统的记忆系统通常关注单实体更新，忽视了多实体和动态变化的复杂场景。现有的基准测试，如RULER和NoLiMa，主要测量单输入内的注意窗口限制，而不是跨会话的持久记忆。多会话基准测试，如LoCoMo和LongMemEval，评估静态偏好保留和知识更新，但未能评估上游变化对依赖实体的影响。

核心问题

现有的记忆系统在处理动态和多实体信息时存在显著的不足，尤其是在依赖推理任务中。依赖推理涉及到如何在上游更新后处理事实变化（级联）、如何在先前有效的答案变得不确定时处理（缺失），以及如何在事实被移除后停止报告（删除）。这些任务揭示了当前记忆系统在处理状态性、相互依赖知识时的盲点。

核心创新

MEME首次系统地评估了多实体和动态记忆任务，特别是依赖推理任务。与现有基准不同，MEME不仅关注单实体更新，还涵盖了多实体和动态变化的复杂场景。通过定义新的任务类型和使用DAG知识图生成数据集，MEME提供了一个全面的记忆评估框架。

方法详解

�� MEME定义了六个任务，涵盖多实体和动态记忆的评估。
�� 使用有向无环图（DAG）知识图生成数据集，确保了可验证的传播答案。
�� 在六种记忆系统上进行实验，涵盖三种记忆范式。
�� 通过提示优化、深度检索和减少填充噪声等方法进行实验，以揭示当前系统在依赖推理任务上的失败。

实验设计

实验在六种记忆系统上进行，涵盖三种记忆范式，包括原始检索、LLM处理记忆和文件型代理。使用100个控制实验，评估级联、缺失和删除任务的表现。实验揭示了当前系统在依赖推理任务上的失败，尤其是在级联和缺失任务中。

结果分析

应用场景

局限与展望

当前评估仅限于两个手工创建的知识图（个人生活和软件项目），可能限制了结果的普适性。对话数据是由LLM生成的，而非真实用户收集，可能影响现实性。实验规模有限，仅在100个情境下进行，可能未能揭示更长上下文或更大样本规模下的模式。

通俗解读非专业人士也能看懂

想象一下，你有一个智能助手，它能记住你所有的事情，比如你住在哪里、你喜欢什么、甚至你的工作项目。现在，假设你搬到了一个新城市，你的智能助手不仅要记住这个变化，还要知道之前与你旧住址相关的事情，比如通勤时间或附近设施，可能不再有效。MEME就是为了测试这些智能助手在处理这种变化时的表现。它就像一个测试，看看这些助手能否在多个任务中有效地更新和推理信息。结果显示，许多系统在处理这些复杂变化时表现不佳，尤其是在需要依赖推理的任务中。就像一个学生在考试中遇到难题时，尽管他在其他科目上表现良好，但在这个特定问题上却无法给出正确答案。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下，你有一个超级酷的智能助手，它能记住你所有的事情，比如你住在哪里、你喜欢什么、甚至你的工作项目。现在，假设你搬到了一个新城市，你的智能助手不仅要记住这个变化，还要知道之前与你旧住址相关的事情，比如通勤时间或附近设施，可能不再有效。MEME就是为了测试这些智能助手在处理这种变化时的表现。结果显示，许多系统在处理这些复杂变化时表现不佳，尤其是在需要依赖推理的任务中。就像一个学生在考试中遇到难题时，尽管他在其他科目上表现良好，但在这个特定问题上却无法给出正确答案。

术语表

多实体 (Multi-entity)

涉及多个实体的信息处理任务。

MEME评估框架中的一个维度。

动态记忆 (Evolving Memory)

随着时间推移进行更新和变化的记忆系统。

MEME评估框架中的一个维度。

依赖推理 (Dependency Reasoning)

处理信息之间的依赖关系并进行推理的能力。

MEME评估的核心任务之一。

级联 (Cascade)

处理上游更新后信息变化的任务。

MEME评估的任务之一。

缺失 (Absence)

处理先前有效的答案变得不确定时的任务。

MEME评估的任务之一。

删除 (Deletion)

处理信息被移除后停止报告的任务。

MEME评估的任务之一。

有向无环图 (DAG)

一种用于表示实体及其依赖关系的图结构。

用于生成MEME评估数据集。

文件型代理 (File-based Agent)

通过工具调用管理持久文件的LLM代理。

MEME评估的记忆系统之一。

Claude Opus 4.7

一种用于部分缩小依赖推理任务差距的LLM。

与文件型代理结合使用。

提示优化 (Prompt Optimization)

通过优化提示来提高系统性能的方法。

用于MEME实验中的一种方法。

开放问题这项研究留下的未解疑问

1 当前记忆系统在处理动态和多实体信息时的不足，尤其是在依赖推理任务中。需要新的记忆架构，以便在维护阶段本地传播更新。
2 现有评估仅限于两个手工创建的知识图，可能限制了结果的普适性。需要扩展到更广泛的领域和人群来源的知识图。
3 对话数据是由LLM生成的，而非真实用户收集，可能影响现实性。需要真实用户数据来提高评估的现实性。
4 实验规模有限，仅在100个情境下进行，可能未能揭示更长上下文或更大样本规模下的模式。需要更大规模的实验来验证结果。
5 当前系统在依赖推理任务上的失败，表明需要新的解决方案来处理状态性、相互依赖知识的更新。

应用场景

近期应用

智能助手优化

通过改进记忆系统，提高智能助手在动态环境中的表现，尤其是在处理复杂知识更新时。

多实体数据管理

在需要处理多个实体信息的场景中应用MEME框架，以提高数据管理效率。

动态知识库

在企业知识管理中应用MEME框架，以便更好地处理动态信息更新。

远期愿景

全面记忆系统

开发能够本地传播更新的记忆系统，以便在动态环境中处理复杂知识更新。

跨领域应用

将MEME框架扩展到更多领域，以提高记忆系统的普适性和适应性。

原文摘要

LLM-based agents increasingly operate in persistent environments where they must store, update, and reason over information across many sessions. While prior benchmarks evaluate only single-entity updates, MEME defines six tasks spanning the full space defined by the multi-entity and evolving axes, including three not scored by prior work: Cascade and Absence (dependency reasoning) and Deletion (post-removal state). Evaluating six memory systems spanning three memory paradigms on 100 controlled episodes, we find that all systems collapse on dependency reasoning under the default configuration (Cascade: 3%, Absence: 1% in average accuracy) despite adequate static retrieval performance. Prompt optimization, deeper retrieval, reduced filler noise, and most stronger LLMs fail to close this gap. Only a file-based agent paired with Claude Opus 4.7 as its internal LLM partially closes the gap, but at ~70x the baseline cost, indicating closure currently depends on configurations that are not practical at scale. Code and data are available on the project page: https://seokwonjung-jay.github.io/meme-eval/.

cs.LG cs.CL

参考文献 (20)

LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

Di Wu, Hongwei Wang, Wenhao Yu 等

2024 259 引用 ⭐ 高影响力查看解读 →

Judging LLM-as-a-judge with MT-Bench and Chatbot Arena

Lianmin Zheng, Wei-Lin Chiang, Ying Sheng 等

2023 8403 引用 ⭐ 高影响力查看解读 →

A Coefficient of Agreement for Nominal Scales

Jacob Cohen

1960 42435 引用 ⭐ 高影响力

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Patrick Lewis, Ethan Perez, Aleksandara Piktus 等

2020 13747 引用查看解读 →

♫ MuSiQue: Multihop Questions via Single-hop Question Composition

H. Trivedi, Niranjan Balasubramanian, Tushar Khot 等

2021 811 引用查看解读 →

Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

Yuanzhe Hu, Yu Wang, Julian McAuley

2025 76 引用查看解读 →

MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents

Haoran Tan, Zeyu Zhang, Chen Ma 等

2025 41 引用查看解读 →

From Local to Global: A Graph RAG Approach to Query-Focused Summarization

Darren Edge, Ha Trinh, Newman Cheng 等

2024 1415 引用查看解读 →

A Survey on the Memory Mechanism of Large Language Model-based Agents

Zeyu Zhang, Quanyu Dai, Xiaohe Bo 等

2024 500 引用查看解读 →

RULER: What's the Real Context Size of Your Long-Context Language Models?

Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman 等

2024 857 引用查看解读 →

MemGPT: Towards LLMs as Operating Systems

Charles Packer, Vivian Fang, Shishir G. Patil 等

2023 626 引用查看解读 →

Evaluating Very Long-Term Conversational Memory of LLM Agents

Adyasha Maharana, Dong-Ho Lee, S. Tulyakov 等

2024 430 引用查看解读 →

NoLiMa: Long-Context Evaluation Beyond Literal Matching

Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt 等

2025 71 引用查看解读 →

MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions

Zexuan Zhong, Zhengxuan Wu, Christopher D. Manning 等

2023 316 引用查看解读 →

Unsupervised Dense Information Retrieval with Contrastive Learning

Gautier Izacard, Mathilde Caron, Lucas Hosseini 等

2021 1474 引用查看解读 →

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

Zhilin Yang, Peng Qi, Saizheng Zhang 等

2018 4396 引用查看解读 →

DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines

O. Khattab, Arnav Singhvi, Paridhi Maheshwari 等

2023 690 引用查看解读 →

Evaluating the Ripple Effects of Knowledge Editing in Language Models

Roi Cohen, Eden Biran, Ori Yoran 等

2023 262 引用查看解读 →

BM25S: Orders of magnitude faster lexical search via eager sparse scoring

Xing Han Lù

2024 107 引用查看解读 →

Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

P. Chhikara, Dev Khant, Saket Aryan 等

2025 311 引用查看解读 →

MEME: Multi-entity & Evolving Memory Evaluation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

多实体 (Multi-entity)

动态记忆 (Evolving Memory)

依赖推理 (Dependency Reasoning)

级联 (Cascade)

缺失 (Absence)

删除 (Deletion)

有向无环图 (DAG)

文件型代理 (File-based Agent)

Claude Opus 4.7

提示优化 (Prompt Optimization)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

智能助手优化

多实体数据管理

动态知识库

远期愿景

全面记忆系统

跨领域应用

原文摘要

参考文献 (20)

相关论文

Execution-State Capsules: Graph-Bound Execution-State Checkpoint and Restore for Low-Latency, Small-Batch, On-Device Physical-AI Serving

On the Oracle Complexity of Interpolation-Based Gradient Descent

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

Zero-Shot Active Feature Acquisition via LLM-Elicitation

Looped World Models

Kolmogorov Regression for Robust Diffusion Policies

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问