核心发现
方法论
MEME提出了一种新的评估框架,专注于多实体和动态记忆的评估。该框架定义了六个任务,包括级联、缺失和删除,这些任务通过有向无环图(DAG)知识图生成,确保了可验证的传播答案。实验在六种记忆系统上进行,涵盖三种记忆范式,揭示了当前系统在依赖推理任务上的失败。
关键结果
- 在100个控制实验中,所有系统在默认配置下的依赖推理任务上表现不佳,级联任务平均准确率为3%,缺失任务为1%。即使在提示优化、深度检索和减少填充噪声的情况下,结果仍未显著改善。
- 只有一个文件型代理与Claude Opus 4.7结合使用时部分缩小了差距,但成本是基线的70倍,表明目前的解决方案在大规模应用中不切实际。
- 实验揭示了当前记忆系统在处理状态性、相互依赖知识时的盲点,尤其是在级联和缺失任务中。
研究意义
MEME的研究揭示了现有记忆系统在处理动态和多实体信息时的不足,尤其是在依赖推理任务中。这项工作为未来的记忆系统设计提供了重要的指导,强调了在动态环境中处理复杂知识更新的必要性。
技术贡献
MEME通过定义新的任务类型和使用DAG知识图生成数据集,提供了一个全面的记忆评估框架。它揭示了当前记忆系统在依赖推理任务上的结构性缺陷,并提出了潜在的解决方案。
新颖性
MEME首次系统地评估了多实体和动态记忆任务,特别是依赖推理任务。与现有基准不同,MEME不仅关注单实体更新,还涵盖了多实体和动态变化的复杂场景。
局限性
- 当前评估仅限于两个手工创建的知识图(个人生活和软件项目),可能限制了结果的普适性。
- 对话数据是由LLM生成的,而非真实用户收集,可能影响现实性。
- 实验规模有限,仅在100个情境下进行,可能未能揭示更长上下文或更大样本规模下的模式。
未来方向
未来的研究可以扩展到更广泛的领域和人群来源的知识图,以测试MEME的普适性。此外,可以探索新的记忆架构,以便在维护阶段本地传播更新,而不是依赖昂贵的内部LLM。
AI 总览摘要
随着大规模语言模型(LLM)越来越多地充当跨多次会话与用户互动的代理,准确存储、更新和推理过去的交互信息变得至关重要。然而,现有的记忆系统在处理动态和多实体信息时存在显著的不足,尤其是在依赖推理任务中。
MEME提出了一种新的评估框架,专注于多实体和动态记忆的评估。该框架定义了六个任务,包括级联、缺失和删除,这些任务通过有向无环图(DAG)知识图生成,确保了可验证的传播答案。实验在六种记忆系统上进行,涵盖三种记忆范式,揭示了当前系统在依赖推理任务上的失败。
在100个控制实验中,所有系统在默认配置下的依赖推理任务上表现不佳,级联任务平均准确率为3%,缺失任务为1%。即使在提示优化、深度检索和减少填充噪声的情况下,结果仍未显著改善。只有一个文件型代理与Claude Opus 4.7结合使用时部分缩小了差距,但成本是基线的70倍,表明目前的解决方案在大规模应用中不切实际。
MEME的研究揭示了现有记忆系统在处理动态和多实体信息时的不足,尤其是在依赖推理任务中。这项工作为未来的记忆系统设计提供了重要的指导,强调了在动态环境中处理复杂知识更新的必要性。
未来的研究可以扩展到更广泛的领域和人群来源的知识图,以测试MEME的普适性。此外,可以探索新的记忆架构,以便在维护阶段本地传播更新,而不是依赖昂贵的内部LLM。
深度分析
研究背景
随着人工智能技术的发展,大规模语言模型(LLM)在各种应用中变得越来越重要。传统的记忆系统通常关注单实体更新,忽视了多实体和动态变化的复杂场景。现有的基准测试,如RULER和NoLiMa,主要测量单输入内的注意窗口限制,而不是跨会话的持久记忆。多会话基准测试,如LoCoMo和LongMemEval,评估静态偏好保留和知识更新,但未能评估上游变化对依赖实体的影响。
核心问题
现有的记忆系统在处理动态和多实体信息时存在显著的不足,尤其是在依赖推理任务中。依赖推理涉及到如何在上游更新后处理事实变化(级联)、如何在先前有效的答案变得不确定时处理(缺失),以及如何在事实被移除后停止报告(删除)。这些任务揭示了当前记忆系统在处理状态性、相互依赖知识时的盲点。
核心创新
MEME首次系统地评估了多实体和动态记忆任务,特别是依赖推理任务。与现有基准不同,MEME不仅关注单实体更新,还涵盖了多实体和动态变化的复杂场景。通过定义新的任务类型和使用DAG知识图生成数据集,MEME提供了一个全面的记忆评估框架。
方法详解
- �� MEME定义了六个任务,涵盖多实体和动态记忆的评估。
- �� 使用有向无环图(DAG)知识图生成数据集,确保了可验证的传播答案。
- �� 在六种记忆系统上进行实验,涵盖三种记忆范式。
- �� 通过提示优化、深度检索和减少填充噪声等方法进行实验,以揭示当前系统在依赖推理任务上的失败。
实验设计
实验在六种记忆系统上进行,涵盖三种记忆范式,包括原始检索、LLM处理记忆和文件型代理。使用100个控制实验,评估级联、缺失和删除任务的表现。实验揭示了当前系统在依赖推理任务上的失败,尤其是在级联和缺失任务中。
结果分析
在100个控制实验中,所有系统在默认配置下的依赖推理任务上表现不佳,级联任务平均准确率为3%,缺失任务为1%。即使在提示优化、深度检索和减少填充噪声的情况下,结果仍未显著改善。只有一个文件型代理与Claude Opus 4.7结合使用时部分缩小了差距,但成本是基线的70倍,表明目前的解决方案在大规模应用中不切实际。
应用场景
MEME的研究揭示了现有记忆系统在处理动态和多实体信息时的不足,尤其是在依赖推理任务中。这项工作为未来的记忆系统设计提供了重要的指导,强调了在动态环境中处理复杂知识更新的必要性。
局限与展望
当前评估仅限于两个手工创建的知识图(个人生活和软件项目),可能限制了结果的普适性。对话数据是由LLM生成的,而非真实用户收集,可能影响现实性。实验规模有限,仅在100个情境下进行,可能未能揭示更长上下文或更大样本规模下的模式。
通俗解读 非专业人士也能看懂
想象一下,你有一个智能助手,它能记住你所有的事情,比如你住在哪里、你喜欢什么、甚至你的工作项目。现在,假设你搬到了一个新城市,你的智能助手不仅要记住这个变化,还要知道之前与你旧住址相关的事情,比如通勤时间或附近设施,可能不再有效。MEME就是为了测试这些智能助手在处理这种变化时的表现。它就像一个测试,看看这些助手能否在多个任务中有效地更新和推理信息。结果显示,许多系统在处理这些复杂变化时表现不佳,尤其是在需要依赖推理的任务中。就像一个学生在考试中遇到难题时,尽管他在其他科目上表现良好,但在这个特定问题上却无法给出正确答案。
简单解释 像给14岁少年讲一样
嘿,小伙伴们!想象一下,你有一个超级酷的智能助手,它能记住你所有的事情,比如你住在哪里、你喜欢什么、甚至你的工作项目。现在,假设你搬到了一个新城市,你的智能助手不仅要记住这个变化,还要知道之前与你旧住址相关的事情,比如通勤时间或附近设施,可能不再有效。MEME就是为了测试这些智能助手在处理这种变化时的表现。结果显示,许多系统在处理这些复杂变化时表现不佳,尤其是在需要依赖推理的任务中。就像一个学生在考试中遇到难题时,尽管他在其他科目上表现良好,但在这个特定问题上却无法给出正确答案。
术语表
多实体 (Multi-entity)
涉及多个实体的信息处理任务。
MEME评估框架中的一个维度。
动态记忆 (Evolving Memory)
随着时间推移进行更新和变化的记忆系统。
MEME评估框架中的一个维度。
依赖推理 (Dependency Reasoning)
处理信息之间的依赖关系并进行推理的能力。
MEME评估的核心任务之一。
级联 (Cascade)
处理上游更新后信息变化的任务。
MEME评估的任务之一。
缺失 (Absence)
处理先前有效的答案变得不确定时的任务。
MEME评估的任务之一。
删除 (Deletion)
处理信息被移除后停止报告的任务。
MEME评估的任务之一。
有向无环图 (DAG)
一种用于表示实体及其依赖关系的图结构。
用于生成MEME评估数据集。
文件型代理 (File-based Agent)
通过工具调用管理持久文件的LLM代理。
MEME评估的记忆系统之一。
Claude Opus 4.7
一种用于部分缩小依赖推理任务差距的LLM。
与文件型代理结合使用。
提示优化 (Prompt Optimization)
通过优化提示来提高系统性能的方法。
用于MEME实验中的一种方法。
开放问题 这项研究留下的未解疑问
- 1 当前记忆系统在处理动态和多实体信息时的不足,尤其是在依赖推理任务中。需要新的记忆架构,以便在维护阶段本地传播更新。
- 2 现有评估仅限于两个手工创建的知识图,可能限制了结果的普适性。需要扩展到更广泛的领域和人群来源的知识图。
- 3 对话数据是由LLM生成的,而非真实用户收集,可能影响现实性。需要真实用户数据来提高评估的现实性。
- 4 实验规模有限,仅在100个情境下进行,可能未能揭示更长上下文或更大样本规模下的模式。需要更大规模的实验来验证结果。
- 5 当前系统在依赖推理任务上的失败,表明需要新的解决方案来处理状态性、相互依赖知识的更新。
应用场景
近期应用
智能助手优化
通过改进记忆系统,提高智能助手在动态环境中的表现,尤其是在处理复杂知识更新时。
多实体数据管理
在需要处理多个实体信息的场景中应用MEME框架,以提高数据管理效率。
动态知识库
在企业知识管理中应用MEME框架,以便更好地处理动态信息更新。
远期愿景
全面记忆系统
开发能够本地传播更新的记忆系统,以便在动态环境中处理复杂知识更新。
跨领域应用
将MEME框架扩展到更多领域,以提高记忆系统的普适性和适应性。
原文摘要
LLM-based agents increasingly operate in persistent environments where they must store, update, and reason over information across many sessions. While prior benchmarks evaluate only single-entity updates, MEME defines six tasks spanning the full space defined by the multi-entity and evolving axes, including three not scored by prior work: Cascade and Absence (dependency reasoning) and Deletion (post-removal state). Evaluating six memory systems spanning three memory paradigms on 100 controlled episodes, we find that all systems collapse on dependency reasoning under the default configuration (Cascade: 3%, Absence: 1% in average accuracy) despite adequate static retrieval performance. Prompt optimization, deeper retrieval, reduced filler noise, and most stronger LLMs fail to close this gap. Only a file-based agent paired with Claude Opus 4.7 as its internal LLM partially closes the gap, but at ~70x the baseline cost, indicating closure currently depends on configurations that are not practical at scale. Code and data are available on the project page: https://seokwonjung-jay.github.io/meme-eval/.
参考文献 (20)
LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory
Di Wu, Hongwei Wang, Wenhao Yu 等
Judging LLM-as-a-judge with MT-Bench and Chatbot Arena
Lianmin Zheng, Wei-Lin Chiang, Ying Sheng 等
A Coefficient of Agreement for Nominal Scales
Jacob Cohen
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
Patrick Lewis, Ethan Perez, Aleksandara Piktus 等
♫ MuSiQue: Multihop Questions via Single-hop Question Composition
H. Trivedi, Niranjan Balasubramanian, Tushar Khot 等
Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions
Yuanzhe Hu, Yu Wang, Julian McAuley
MemBench: Towards More Comprehensive Evaluation on the Memory of LLM-based Agents
Haoran Tan, Zeyu Zhang, Chen Ma 等
From Local to Global: A Graph RAG Approach to Query-Focused Summarization
Darren Edge, Ha Trinh, Newman Cheng 等
A Survey on the Memory Mechanism of Large Language Model-based Agents
Zeyu Zhang, Quanyu Dai, Xiaohe Bo 等
RULER: What's the Real Context Size of Your Long-Context Language Models?
Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman 等
MemGPT: Towards LLMs as Operating Systems
Charles Packer, Vivian Fang, Shishir G. Patil 等
Evaluating Very Long-Term Conversational Memory of LLM Agents
Adyasha Maharana, Dong-Ho Lee, S. Tulyakov 等
NoLiMa: Long-Context Evaluation Beyond Literal Matching
Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt 等
MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop Questions
Zexuan Zhong, Zhengxuan Wu, Christopher D. Manning 等
Unsupervised Dense Information Retrieval with Contrastive Learning
Gautier Izacard, Mathilde Caron, Lucas Hosseini 等
HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering
Zhilin Yang, Peng Qi, Saizheng Zhang 等
DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines
O. Khattab, Arnav Singhvi, Paridhi Maheshwari 等
Evaluating the Ripple Effects of Knowledge Editing in Language Models
Roi Cohen, Eden Biran, Ori Yoran 等
BM25S: Orders of magnitude faster lexical search via eager sparse scoring
Xing Han Lù
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory
P. Chhikara, Dev Khant, Saket Aryan 等