LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation

TL;DR

LifeSim通过BDI模型模拟用户认知，提升个性化助手评估。

cs.CL 🔴 高级 2026-03-13 14 次浏览

Feiyu Duan Xuanjing Huang Zhongyu Wei

用户模拟个性化助手 BDI模型长时序意图识别

核心发现

方法论

LifeSim通过信念-愿望-意图（BDI）模型在物理环境中模拟用户认知，生成连贯的生活轨迹，并模拟基于意图的用户交互行为。LifeSim-Eval是一个涵盖8个生活领域和1200个场景的综合基准，采用多轮交互方法评估模型完成显性和隐性意图、恢复用户档案和生成高质量响应的能力。

关键结果

实验表明，当前的大型语言模型在处理隐性意图和长期用户偏好建模方面存在显著局限性。具体来说，在LifeSim-Eval基准上，GPT-5在显性意图识别上取得了79.5%的准确率，但在隐性意图识别上仅为52.2%。
在长时序设置中，尽管模型在显性意图上表现稳定，但隐性意图完成率随着对话历史的增长显著下降。
简单的档案记忆对个性化的帮助有限，表明有效的个性化需要超越简单的记忆保持，进行稳定的偏好推理。

研究意义

LifeSim和LifeSim-Eval的提出为个性化助手的评估提供了一个更接近现实世界的测试平台。通过模拟用户的认知和生活轨迹，这一研究填补了现有基准在捕捉外部环境复杂性和用户认知状态方面的空白。它不仅推动了学术界在个性化智能领域的研究，还为工业界开发更智能的AI助手提供了新的评估工具。

技术贡献

LifeSim在用户模拟中引入了BDI模型，结合事件引擎生成生活轨迹，并通过用户行为引擎生成与用户认知和外部环境一致的响应。这种方法与现有的静态或短时序数据集形成鲜明对比，提供了一个高保真度的长时序用户-助手交互模拟框架。

新颖性

LifeSim首次在用户模拟中结合了BDI模型和物理环境，生成连贯的生活轨迹和意图驱动的交互行为。与现有的基准相比，它在多场景和长时序个性化评估中提供了更高的保真度。

局限性

当前模型在处理隐性意图和长时序用户偏好建模方面存在显著局限性，尤其是在对话历史增长时表现下降。
LifeSim-Eval目前主要关注日常生活场景，尚未涵盖高风险领域如医疗和法律咨询。
缺乏多模态用户信号，主要通过文本交互模拟用户行为动态。

未来方向

未来的研究方向包括扩展LifeSim-Eval以涵盖高风险领域，整合多模态信息以提高模拟的真实性，以及开发更复杂的用户偏好建模方法以改善隐性意图识别和长时序用户建模。

AI 总览摘要

随着大型语言模型（LLMs）的快速发展，通用AI助手的愿景变得越来越可实现。然而，现有的个性化助手基准与真实世界的用户-助手交互不符，未能捕捉外部环境的复杂性和用户的认知状态。为了弥补这一差距，我们提出了LifeSim，一个通过信念-愿望-意图（BDI）模型在物理环境中模拟用户认知的用户模拟器，用于生成连贯的生活轨迹，并模拟基于意图的用户交互行为。

基于LifeSim，我们引入了LifeSim-Eval，一个涵盖8个生活领域和1200个多样化场景的综合基准，采用多轮交互方法评估模型在完成显性和隐性意图、恢复用户档案和生成高质量响应方面的能力。我们的实验表明，当前的大型语言模型在处理隐性意图和长期用户偏好建模方面存在显著局限性。

LifeSim通过BDI模型结合事件引擎生成生活轨迹，并通过用户行为引擎生成与用户认知和外部环境一致的响应。这种方法与现有的静态或短时序数据集形成鲜明对比，提供了一个高保真度的长时序用户-助手交互模拟框架。

实验结果显示，尽管模型在显性意图识别上表现良好，但在隐性意图识别和长时序用户偏好建模上仍有很大提升空间。具体而言，在LifeSim-Eval基准上，GPT-5在显性意图识别上取得了79.5%的准确率，但在隐性意图识别上仅为52.2%。

深度分析

研究背景

近年来，随着大型语言模型（LLMs）的快速发展，通用AI助手的愿景变得越来越可实现。现有的研究主要集中在优化模型处理复杂和知识密集型任务的能力，以及提高其社交智能。然而，当前的评估框架与真实世界的场景存在明显差距，限制了个性化智能的进步。理想的用户-助手交互与孤立的问题回答根本不同，涉及复杂的外部环境和用户的认知状态。用户需求因情境因素而异，如时间、地点、天气和正在进行的生活事件。用户意图则源于内部认知状态，由不断变化的生活经验以及相对稳定的个性和偏好共同塑造。由于隐私和伦理考虑，真实世界的用户数据受到限制，跨越多年的多场景交互日志极为稀缺。因此，建立一个具有长期用户-助手交互的现实测试平台是一个根本性问题。

核心问题

现有的个性化助手基准未能捕捉外部环境的复杂性和用户的认知状态，导致与真实世界的用户-助手交互不符。这种不匹配限制了个性化智能的进步，因为理想的用户-助手交互涉及复杂的外部环境和用户的认知状态，而不仅仅是孤立的问题回答。用户需求因情境因素而异，如时间、地点、天气和正在进行的生活事件。用户意图则源于内部认知状态，由不断变化的生活经验以及相对稳定的个性和偏好共同塑造。

核心创新

LifeSim的核心创新在于其通过信念-愿望-意图（BDI）模型在物理环境中模拟用户认知，生成连贯的生活轨迹，并模拟基于意图的用户交互行为。与现有的静态或短时序数据集相比，LifeSim提供了一个高保真度的长时序用户-助手交互模拟框架。LifeSim-Eval则是一个涵盖8个生活领域和1200个多样化场景的综合基准，采用多轮交互方法评估模型在完成显性和隐性意图、恢复用户档案和生成高质量响应方面的能力。

方法详解

�� LifeSim通过信念-愿望-意图（BDI）模型在物理环境中模拟用户认知。
�� 事件引擎生成生活轨迹，并通过用户行为引擎生成与用户认知和外部环境一致的响应。
�� LifeSim-Eval涵盖8个生活领域和1200个多样化场景，采用多轮交互方法评估模型在完成显性和隐性意图、恢复用户档案和生成高质量响应方面的能力。
�� 实验表明，当前的大型语言模型在处理隐性意图和长期用户偏好建模方面存在显著局限性。

实验设计

实验设计包括在LifeSim-Eval基准上评估多种开源和闭源模型的性能。基准涵盖8个生活领域和1200个多样化场景，采用多轮交互方法评估模型在完成显性和隐性意图、恢复用户档案和生成高质量响应方面的能力。实验结果显示，尽管模型在显性意图识别上表现良好，但在隐性意图识别和长时序用户偏好建模上仍有很大提升空间。

结果分析

实验结果显示，尽管模型在显性意图识别上表现良好，但在隐性意图识别和长时序用户偏好建模上仍有很大提升空间。具体而言，在LifeSim-Eval基准上，GPT-5在显性意图识别上取得了79.5%的准确率，但在隐性意图识别上仅为52.2%。在长时序设置中，尽管模型在显性意图上表现稳定，但隐性意图完成率随着对话历史的增长显著下降。

应用场景

LifeSim和LifeSim-Eval为个性化助手的评估提供了一个更接近现实世界的测试平台。通过模拟用户的认知和生活轨迹，这一研究填补了现有基准在捕捉外部环境复杂性和用户认知状态方面的空白。它不仅推动了学术界在个性化智能领域的研究，还为工业界开发更智能的AI助手提供了新的评估工具。

局限与展望

当前模型在处理隐性意图和长时序用户偏好建模方面存在显著局限性，尤其是在对话历史增长时表现下降。LifeSim-Eval目前主要关注日常生活场景，尚未涵盖高风险领域如医疗和法律咨询。缺乏多模态用户信号，主要通过文本交互模拟用户行为动态。

通俗解读非专业人士也能看懂

想象你有一个虚拟的朋友，叫做LifeSim。这个朋友非常聪明，它能通过观察你的行为和环境来预测你的想法和需求。比如，当你在家时，它知道你可能需要一些放松的音乐，而当你在工作时，它会提醒你重要的会议。LifeSim就像一个超级智能的助手，它不仅仅是回答你的问题，而是能理解你的生活轨迹和偏好，提供个性化的建议。

为了做到这一点，LifeSim使用了一种叫做信念-愿望-意图（BDI）的模型。这就像是它的大脑，帮助它理解你在不同情况下的想法和愿望。通过观察你的行为和环境，它能生成一个连贯的生活轨迹，预测你可能的需求和意图。

LifeSim还通过一个叫做事件引擎的东西来生成生活轨迹。这就像是它的记忆，帮助它记住你过去的经历和偏好。通过这种方式，它能在不同的生活场景中为你提供个性化的建议。

总之，LifeSim就像是一个超级智能的朋友，它能通过观察你的行为和环境来预测你的需求和意图，为你提供个性化的建议。

简单解释像给14岁少年讲一样

嘿，小伙伴！你有没有想过，如果有一个超级智能的助手，它能理解你的想法和需求，那会是什么样子？这就是LifeSim，一个超级聪明的虚拟助手！

LifeSim就像是一个能读懂你心思的朋友。它通过观察你的行为和周围的环境来猜测你在想什么，想要什么。比如说，当你在学校的时候，它知道你可能需要一些学习资料，而当你在家里，它会提醒你该休息了。

为了做到这一点，LifeSim用了一种叫做信念-愿望-意图（BDI）的模型。这就像是它的大脑，帮助它理解你在不同情况下的想法和愿望。通过观察你的行为和环境，它能生成一个连贯的生活轨迹，预测你可能的需求和意图。

总之，LifeSim就像是一个超级智能的朋友，它能通过观察你的行为和环境来预测你的需求和意图，为你提供个性化的建议。是不是很酷？

术语表

信念-愿望-意图模型 (BDI)

一种用于模拟用户认知的心理模型，通过信念、愿望和意图来描述用户的内部推理过程。

在LifeSim中用于生成用户的生活轨迹和意图驱动的交互行为。

大型语言模型 (LLM)

一种通过大量数据训练的模型，能够生成自然语言文本并执行复杂的语言任务。

用于生成事件假设和用户行为模拟。

用户行为引擎

用于生成与用户认知和外部环境一致的响应的组件。

在LifeSim中用于模拟用户的交互行为。

事件引擎

用于生成生活轨迹的组件，结合BDI模型指导生成用户的生活事件。

在LifeSim中用于模拟用户的生活轨迹。

个性化助手

一种能够根据用户的偏好和需求提供个性化建议的智能助手。

LifeSim-Eval用于评估个性化助手的能力。

隐性意图

用户未明确表达但可以通过上下文推断出的需求或愿望。

在LifeSim-Eval中用于评估模型识别和完成隐性意图的能力。

长时序

涉及长时间跨度的用户-助手交互，考虑用户的长期偏好和历史。

LifeSim提供了一个高保真度的长时序用户-助手交互模拟框架。

多轮交互

涉及多次对话轮次的交互方式，允许更复杂的用户-助手交流。

LifeSim-Eval采用多轮交互方法评估模型能力。

用户档案

包含用户人口统计属性、个性特征和长期偏好的信息集合。

用于初始化用户的长期信念状态。

事件假设

基于用户的长期信念和最近的生活经验生成的事件预测。

用于生成用户的短期信念。

开放问题这项研究留下的未解疑问

1 如何在高风险领域如医疗和法律咨询中应用LifeSim？这些领域需要更严格的领域知识和复杂的监管和伦理约束。
2 如何整合多模态信息以提高LifeSim的模拟真实性？多模态信息包括视觉上下文或生理信号，可能提供更丰富的用户意图和情感状态信息。
3 如何改进隐性意图识别和长时序用户建模？当前模型在处理隐性意图和长时序用户偏好建模方面存在显著局限性。
4 如何在不侵犯用户隐私的情况下收集真实世界的用户数据？隐私和伦理考虑限制了真实世界用户数据的获取。
5 如何在LifeSim中实现更复杂的用户偏好建模方法？当前的档案记忆对个性化的帮助有限，表明需要更复杂的偏好推理方法。

应用场景

近期应用

个性化推荐系统

通过LifeSim模拟用户行为和偏好，改进推荐系统的个性化能力，提高用户满意度。

智能家居助手

利用LifeSim生成的用户生活轨迹和意图，优化智能家居设备的自动化控制和个性化服务。

教育领域个性化学习

通过模拟学生的学习轨迹和偏好，提供个性化的学习建议和资源，提升学习效果。

远期愿景

医疗领域个性化健康管理

通过模拟患者的健康轨迹和偏好，提供个性化的健康管理建议，改善患者健康状况。

法律咨询领域智能助手

通过模拟用户的法律咨询需求和偏好，提供个性化的法律建议，提高法律服务的效率和准确性。

原文摘要

The rapid advancement of large language models (LLMs) has accelerated progress toward universal AI assistants. However, existing benchmarks for personalized assistants remain misaligned with real-world user-assistant interactions, failing to capture the complexity of external contexts and users' cognitive states. To bridge this gap, we propose LifeSim, a user simulator that models user cognition through the Belief-Desire-Intention (BDI) model within physical environments for coherent life trajectories generation, and simulates intention-driven user interactive behaviors. Based on LifeSim, we introduce LifeSim-Eval, a comprehensive benchmark for multi-scenario, long-horizon personalized assistance. LifeSim-Eval covers 8 life domains and 1,200 diverse scenarios, and adopts a multi-turn interactive method to assess models' abilities to complete explicit and implicit intentions, recover user profiles, and produce high-quality responses. Under both single-scenario and long-horizon settings, our experiments reveal that current LLMs face significant limitations in handling implicit intention and long-term user preference modeling.

cs.CL

参考文献 (20)

Efficient Memory Management for Large Language Model Serving with PagedAttention

Woosuk Kwon, Zhuohan Li, Siyuan Zhuang 等

2023 4924 引用查看解读 →

LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

Di Wu, Hongwei Wang, Wenhao Yu 等

2024 163 引用查看解读 →

Personalized Large Language Model Assistant with Evolving Conditional Memory

Ruifeng Yuan, Shichao Sun, Zili Wang 等

2023 15 引用查看解读 →

DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversation Systems

Jiho Kim, Woosog Chay, Hyeonji Hwang 等

5 引用

AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator

Zhihao Fan, Jialong Tang, Wei Chen 等

2024 86 引用查看解读 →

Intention, Plans, and Practical Reason

Hugh Mccann, M. Bratman

1991 2957 引用

LIFELONG SOTOPIA: Evaluating Social Intelligence of Language Agents Over Lifelong Social Interactions

Hitesh Goel, Hao Zhu

2025 3 引用查看解读 →

From 1,000,000 Users to Every User: Scaling Up Personalized Preference for User-level Alignment

Jia-Nan Li, Jian Guan, Songhao Wu 等

2025 19 引用查看解读 →

Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale

Bowen Jiang, Zhuoqun Hao, Young-Min Cho 等

2025 46 引用查看解读 →

Teaching Language Models to Evolve with Users: Dynamic Profile Modeling for Personalized Alignment

Weixiang Zhao, Xingyu Sui, Yulin Hu 等

2025 14 引用查看解读 →

Do LLMs Recognize Your Preferences? Evaluating Personalized Preference Following in LLMs

Siyan Zhao, Mingyi Hong, Yang Liu 等

2025 61 引用查看解读 →

AnnaAgent: Dynamic Evolution Agent System with Multi-Session Memory for Realistic Seeker Simulation

Ming Wang, Peidong Wang, L. Wu 等

2025 9 引用查看解读 →

WildChat: 1M ChatGPT Interaction Logs in the Wild

Wenting Zhao, Xiang Ren, J. Hessel 等

2024 452 引用查看解读 →

IEEE TRANSACTIONS ON SYSTEMS , MAN , AND CYBERNETICS : SYSTEMS 1 Modeling User Activity Preference by Leveraging User Spatial Temporal Characteristics in LBSNs

Dingqi Yang, Daqing Zhang, V. Zheng 等

2014 779 引用

SocioVerse: A World Model for Social Simulation Powered by LLM Agents and A Pool of 10 Million Real-World Users

Xinnong Zhang, Jiayu Lin, Xinyi Mou 等

2025 33 引用查看解读 →

PersonaLens: A Benchmark for Personalization Evaluation in Conversational AI Assistants

Zheng Zhao, Clara Vania, Subhradeep Kayal 等

2025 11 引用查看解读 →

Relevance Theory

F. L. Piparo, M. Carapezza

2019 262 引用

GLOBEM Dataset: Multi-Year Datasets for Longitudinal Human Behavior Modeling Generalization

Xuhai Xu, Han Zhang, Yasaman S. Sefidgar 等

2022 63 引用查看解读 →

Generating Daily Activities with Need Dynamics

Yuan Yuan, Jingtao Ding, Huandong Wang 等

2023 18 引用

others

Kenneth N. Timmis, Juan Luis Ceada Ramos, Sang Yup Lee 等

1999 1486 引用

LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

信念-愿望-意图模型 (BDI)

大型语言模型 (LLM)

用户行为引擎

事件引擎

个性化助手

隐性意图

长时序

多轮交互

用户档案

事件假设

开放问题 这项研究留下的未解疑问

应用场景

近期应用

个性化推荐系统

智能家居助手

教育领域个性化学习

远期愿景

医疗领域个性化健康管理

法律咨询领域智能助手

原文摘要

参考文献 (20)

相关论文

Neuron-Aware Data Selection In Instruction Tuning For Large Language Models

ESG-Bench: Benchmarking Long-Context ESG Reports for Hallucination Mitigation

Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

Interpretable Semantic Gradients in SSD: A PCA Sweep Approach and a Case Study on AI Discourse

Long-form RewardBench: Evaluating Reward Models for Long-form Generation

HMS-BERT: Hybrid Multi-Task Self-Training for Multilingual and Multi-Label Cyberbullying Detection

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问