Interplay: Training Independent Simulators for Reference-Free Conversational Recommendation

TL;DR

提出了一种无参考模拟框架，通过训练独立的用户和推荐器模拟器生成更真实的对话。

cs.AI 🔴 高级 2026-03-19 52 次浏览

Jerome Ramos Feng Xia Xi Wang Shubham Chatterjee Xiao Fu Hossein A. Rahmani Aldo Lipani

对话推荐系统大语言模型无参考模拟用户模拟推荐算法

核心发现

方法论

本文提出了一种无参考模拟框架，通过训练两个独立的大语言模型（LLM），一个作为用户模拟器，一个作为对话推荐器。这些模型在没有预先设定目标物品的情况下实时互动，通过对话推断用户偏好。用户模拟器基于偏好摘要和属性描述进行操作，而推荐器则根据对话动态生成推荐。这种设计消除了数据泄露问题，并允许对话自然演变，反映真实的推荐场景。

关键结果

结果1：用户模拟器在多轮对话中成功率达到93-95%，显著优于Llama3.1 70B（36%成功率）和Qwen3 32B（77%成功率），验证了无参考操作在保持用户行为真实性的同时消除了人工约束。
结果2：推荐器模拟器RecSim-Qwen8B在Recall@1上达到0.0217，Match Score为0.9333，显著优于Qwen3-32B基线，超过模块化的UniCRS系统，表明专门训练的小模型在特定对话推荐任务上更有效。
结果3：人类评估显示，无参考对话在用户控制和对话流畅性上显著优于参考依赖方法，尽管在自然性上略有不足。

研究意义

该研究通过消除对目标物品的依赖，解决了对话推荐系统中普遍存在的数据泄露和对话僵化问题。通过训练独立的用户和推荐器模拟器，生成的对话更具真实性和多样性。这一方法不仅提高了对话推荐数据的质量，还提供了一种可扩展的解决方案，能够在不预设目标物品的情况下生成高质量的对话推荐数据，对学术界和工业界都有重要意义。

技术贡献

技术贡献包括：1）提出了无参考模拟框架，消除了数据泄露问题；2）通过独立训练的用户和推荐器模拟器，实现了更真实的用户和推荐器行为；3）在对话质量上匹配或超过现有方法，同时使用更小的开源模型实现更具可扩展性和效率的解决方案。

新颖性

本研究首次提出了无参考模拟框架，区别于传统依赖于目标物品的生成方法。通过使用目标属性而非物品，模拟器能够进行真正的探索，生成更自然的对话。这种方法在对话推荐系统中是一个根本性的创新，解决了现有方法中存在的对话僵化和数据泄露问题。

局限性

局限1：虽然该方法在电影推荐领域表现良好，但其在其他领域（如电子商务、音乐、旅游）中的有效性尚未验证，未来需在不同上下文中进行应用和评估。
局限2：该方法采用结构化、任务导向的对话框架，未能捕捉到真实世界中更为开放的对话形式，如开放域闲聊和多意图话语。
局限3：虽然Match Score是推荐质量的有用代理指标，但尚未验证其与真实用户偏好的对齐程度，未来需进行用户研究以评估自动指标与人类判断的相关性。

未来方向

未来工作方向包括：1）在不同领域（如电子商务、音乐、旅游）中应用和评估无参考模拟框架；2）增强模拟器以处理更为开放、混合主动性的对话；3）通过用户研究验证自动指标与人类判断的相关性，进一步提升对话推荐系统的真实性和多样性。

AI 总览摘要

近年来，对话推荐系统（CRS）因其能够通过自然语言对话提供个性化、上下文敏感的推荐而备受关注。然而，CRS的发展依赖于丰富的对话数据，而收集人类标注的对话既昂贵又质量有限。传统的模拟方法通常使用单一的大语言模型（LLM）生成完整对话，这些模型在生成对话时预先知道目标物品，导致对话僵化和不自然。

本文提出了一种无参考模拟框架，通过训练两个独立的LLM，一个作为用户模拟器，一个作为对话推荐器。这些模型在没有预先设定目标物品的情况下实时互动，通过对话推断用户偏好。用户模拟器基于偏好摘要和属性描述进行操作，而推荐器则根据对话动态生成推荐。这种设计消除了数据泄露问题，并允许对话自然演变，反映真实的推荐场景。

在实验中，用户模拟器在多轮对话中成功率达到93-95%，显著优于Llama3.1 70B（36%成功率）和Qwen3 32B（77%成功率），验证了无参考操作在保持用户行为真实性的同时消除了人工约束。推荐器模拟器RecSim-Qwen8B在Recall@1上达到0.0217，Match Score为0.9333，显著优于Qwen3-32B基线，超过模块化的UniCRS系统，表明专门训练的小模型在特定对话推荐任务上更有效。

人类评估显示，无参考对话在用户控制和对话流畅性上显著优于参考依赖方法，尽管在自然性上略有不足。这一方法不仅提高了对话推荐数据的质量，还提供了一种可扩展的解决方案，能够在不预设目标物品的情况下生成高质量的对话推荐数据，对学术界和工业界都有重要意义。

然而，该方法在电影推荐领域表现良好，但其在其他领域（如电子商务、音乐、旅游）中的有效性尚未验证，未来需在不同上下文中进行应用和评估。此外，虽然Match Score是推荐质量的有用代理指标，但尚未验证其与真实用户偏好的对齐程度，未来需进行用户研究以评估自动指标与人类判断的相关性。

深度分析

研究背景

对话推荐系统（CRS）是近年来在人工智能和自然语言处理领域的一个重要研究方向。CRS能够通过自然语言对话提供个性化、上下文敏感的推荐，与传统的基于静态用户-物品交互的推荐系统不同，CRS允许用户动态、交互式地反馈意见，并引导对话的方向。然而，CRS的发展依赖于丰富的对话数据，而收集人类标注的对话既昂贵又质量有限。以往的研究指出，众包的CRS数据集存在几个关键问题：缺乏真实的用户偏好、对话缺乏深度和上下文、以及众包工人缺乏领域专业知识，导致推荐质量差和解释不充分。随着大语言模型（LLM）的流行，研究人员开始使用LLM模拟器生成真实且具有上下文的对话，这对于训练CRS至关重要。然而，现有的方法通常依赖于参考生成，即在生成对话时预先提供目标物品，这导致数据泄露和对话僵化。

核心问题

核心问题在于如何生成真实且多样化的对话数据用于训练对话推荐系统。传统的模拟方法通常使用单一的大语言模型（LLM）生成完整对话，这些模型在生成对话时预先知道目标物品，导致对话僵化和不自然。此外，使用通用LLM作为对话双方的静态角色扮演者也是有问题的，因为这些模型被设计为帮助助手，而不是具有多样化和有时不一致偏好的真实用户模拟器。结果是生成的对话往往缺乏自然探索、不确定性和灵活性，这些特征是人类推荐者交互的典型特征。

核心创新

本文的核心创新在于提出了一种无参考模拟框架，通过训练两个独立的大语言模型（LLM），一个作为用户模拟器，一个作为对话推荐器。这些模型在没有预先设定目标物品的情况下实时互动，通过对话推断用户偏好。具体创新包括：1）无参考设计消除了数据泄露问题，确保模拟器通过对话发现信息，而不是预先为其设定；2）独立训练的专用模型创造了比使用通用LLM更真实的用户和推荐器行为；3）交互性质允许灵活的对话，可以自然地朝多个方向演变，更好地反映真实的推荐场景的复杂性。

方法详解

本文的方法论包括以下几个步骤：

�� 独立训练用户和推荐器模拟器：在现有CRS数据上使用无参考框架进行微调，确保在生成过程中没有访问目标物品。
�� 用户模拟器操作：基于偏好摘要和属性描述进行操作，提供真实反馈而不知道具体目标。
�� 推荐器模拟器生成：根据对话动态生成上下文适当的推荐，完全依赖于对话的演变。
�� 结构化动作生成：将整个模型输出结构化为明确的动作和自然语言响应，确保模型在生成话语之前先承诺一个明确的动作。
�� 角色特定的损失掩码：在损失计算过程中使用掩码策略，确保每个模拟器仅从自己的回合中学习。

实验设计

实验设计包括对用户模拟器和推荐器模拟器的全面评估。使用的基线包括Llama3.1 70B和Qwen3 32B等开源模型，以及模块化的UniCRS系统。评估指标包括多轮对话中的成功率、单轮响应质量、推荐器性能（如Recall@1和Match Score）等。实验在经过过滤的测试集上进行，确保用户角色和推荐器角色的公平比较。实验还包括人类评估，以验证无参考对话的真实性和流畅性。

结果分析

实验结果表明，用户模拟器在多轮对话中成功率达到93-95%，显著优于Llama3.1 70B（36%成功率）和Qwen3 32B（77%成功率），验证了无参考操作在保持用户行为真实性的同时消除了人工约束。推荐器模拟器RecSim-Qwen8B在Recall@1上达到0.0217，Match Score为0.9333，显著优于Qwen3-32B基线，超过模块化的UniCRS系统，表明专门训练的小模型在特定对话推荐任务上更有效。人类评估显示，无参考对话在用户控制和对话流畅性上显著优于参考依赖方法，尽管在自然性上略有不足。

应用场景

该方法的直接应用场景包括：

�� 在线电影推荐：通过无参考模拟框架生成更真实的对话数据，提高推荐系统的性能。
�� 电子商务平台：应用于产品推荐，帮助用户在没有预设目标的情况下发现新产品。
�� 客户服务：在客服对话中应用无参考模拟，提高对话的自然性和用户满意度。

局限与展望

尽管无参考模拟框架在电影推荐领域表现良好，但其在其他领域（如电子商务、音乐、旅游）中的有效性尚未验证，未来需在不同上下文中进行应用和评估。此外，该方法采用结构化、任务导向的对话框架，未能捕捉到真实世界中更为开放的对话形式，如开放域闲聊和多意图话语。虽然Match Score是推荐质量的有用代理指标，但尚未验证其与真实用户偏好的对齐程度，未来需进行用户研究以评估自动指标与人类判断的相关性。

通俗解读非专业人士也能看懂

想象一下你在餐厅点餐。传统的点餐方式就像你已经知道菜单上的每道菜，你只需要告诉服务员你想要什么。然而，有时候你可能不知道自己想吃什么，只是有个大概的想法，比如“我想吃点辣的，最好是鸡肉”。这时，服务员需要根据你的描述来推荐菜品，而不是直接给你一个固定的选项。

本文的方法就像是训练两个独立的服务员，一个负责理解你的偏好，另一个负责根据对话动态推荐菜品。这样一来，推荐的过程就更像是自然的对话，而不是预先设定的剧本。

通过这种方式，系统能够生成更真实的对话数据，因为它不再依赖于预先设定的目标，而是根据对话的演变来推断用户的偏好。这就像是餐厅服务员通过与你的对话来了解你的口味，而不是直接给你一个固定的菜单选项。

这种方法不仅提高了对话推荐系统的真实性和多样性，还提供了一种可扩展的解决方案，能够在不预设目标物品的情况下生成高质量的对话推荐数据。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下，你在玩一个游戏，游戏里有个机器人助手，它会根据你的喜好推荐游戏任务。传统的方法就像是机器人已经知道所有的任务，所以它只会给你推荐那些它认为你会喜欢的任务。

但是，这样的推荐有时候会让人觉得无聊，因为机器人总是推荐同样的东西。于是，科学家们想出了一个新办法：让机器人自己去猜测你喜欢什么，而不是直接给它答案。

这就像是你和机器人一起玩游戏，你告诉它你喜欢什么样的任务，比如“我喜欢有挑战性的任务，最好是能让我动脑筋的”。然后，机器人会根据你的描述来推荐任务，而不是直接给你一个固定的选项。

这样一来，游戏里的对话就变得更有趣了，因为机器人会根据你的反馈来调整推荐，就像是你们在一起探索新的游戏世界。是不是很酷？这种方法不仅让游戏更有趣，还能让机器人更聪明哦！

术语表

大语言模型 (Large Language Model)

大语言模型是一种能够处理和生成自然语言文本的机器学习模型。它通常基于深度学习技术，能够理解上下文并生成连贯的文本。

本文中使用大语言模型来模拟用户和推荐器的对话。

对话推荐系统 (Conversational Recommender System)

对话推荐系统是一种通过自然语言对话提供个性化推荐的系统。它允许用户与系统进行多轮对话，以获取更符合其偏好的推荐。

本文旨在提高对话推荐系统生成对话数据的真实性和多样性。

无参考模拟 (Reference-Free Simulation)

无参考模拟是一种不依赖于预先设定目标物品的对话生成方法。通过实时互动推断用户偏好，生成更自然的对话。

本文提出的无参考模拟框架消除了数据泄露问题。

数据泄露 (Data Leakage)

数据泄露指的是在模型训练或测试过程中，模型意外获取了不应知道的信息，从而影响其性能评估的准确性。

传统的对话生成方法由于预先提供目标物品，导致数据泄露问题。

结构化动作生成 (Structured Action Generation)

结构化动作生成是一种将模型输出结构化为明确的动作和自然语言响应的方法，确保模型在生成话语之前先承诺一个明确的动作。

本文的方法通过结构化动作生成提高了对话的可控性和分析性。

角色特定的损失掩码 (Role-Specific Loss Masking)

角色特定的损失掩码是一种在损失计算过程中使用掩码策略，确保每个模拟器仅从自己的回合中学习的方法。

本文通过角色特定的损失掩码避免了角色交换问题。

成功率 (Success Rate)

成功率是指在多轮对话中，用户模拟器成功接受推荐的比例。

本文的实验结果显示用户模拟器在多轮对话中成功率达到93-95%。

Match Score

Match Score是一种用于评估推荐质量的指标，量化推荐物品与真实目标物品之间的相似性。

本文通过Match Score评估推荐器模拟器的性能。

Recall@1

Recall@1是一种评估推荐系统性能的指标，表示在推荐的前1个物品中包含真实目标物品的比例。

本文的实验结果显示RecSim-Qwen8B在Recall@1上达到0.0217。

BertScore

BertScore是一种用于评估生成文本与参考文本之间相似性的指标，基于BERT模型的嵌入计算相似性。

本文通过BertScore评估用户模拟器的单轮响应质量。

Dist-4

Dist-4是一种用于评估生成文本多样性的指标，计算文本中四元组的多样性。

本文通过Dist-4评估生成对话的多样性。

开放域闲聊 (Open-Domain Chit-Chat)

开放域闲聊是一种不受特定任务约束的对话形式，允许对话参与者自由讨论各种主题。

本文的方法未能捕捉到开放域闲聊的对话形式。

多意图话语 (Multi-Intent Utterance)

多意图话语是指在同一回合中包含多个意图的对话，例如同时提问和提供反馈。

本文的方法未能处理多意图话语的对话形式。

模块化系统 (Modular System)

模块化系统是一种将系统功能分解为多个独立模块的设计方法，每个模块负责特定的功能。

本文的实验中使用了模块化的UniCRS系统作为基线。

人类评估 (Human Evaluation)

人类评估是一种通过人类参与者对系统输出进行主观评价的方法，通常用于评估对话系统的自然性和流畅性。

本文通过人类评估验证无参考对话的真实性和流畅性。

开放问题这项研究留下的未解疑问

1 开放问题1：无参考模拟框架在其他领域（如电子商务、音乐、旅游）中的有效性尚未验证，未来需在不同上下文中进行应用和评估。
2 开放问题2：如何增强模拟器以处理更为开放、混合主动性的对话，捕捉真实世界中更为开放的对话形式，如开放域闲聊和多意图话语。
3 开放问题3：虽然Match Score是推荐质量的有用代理指标，但尚未验证其与真实用户偏好的对齐程度，未来需进行用户研究以评估自动指标与人类判断的相关性。
4 开放问题4：如何在不增加计算成本的情况下进一步提高对话推荐系统的真实性和多样性。
5 开放问题5：如何在不依赖于预先设定目标物品的情况下生成更高质量的对话推荐数据，以提高对话推荐系统的性能。

应用场景

近期应用

在线电影推荐

通过无参考模拟框架生成更真实的对话数据，提高推荐系统的性能。

电子商务平台

应用于产品推荐，帮助用户在没有预设目标的情况下发现新产品。

客户服务

在客服对话中应用无参考模拟，提高对话的自然性和用户满意度。

远期愿景

跨领域对话推荐

将无参考模拟框架应用于多个领域，如音乐、旅游等，提供个性化推荐服务。

智能对话助手

开发能够处理开放域闲聊和多意图话语的智能对话助手，提高人机交互的自然性和多样性。

原文摘要

Training conversational recommender systems (CRS) requires extensive dialogue data, which is challenging to collect at scale. To address this, researchers have used simulated user-recommender conversations. Traditional simulation approaches often utilize a single large language model (LLM) that generates entire conversations with prior knowledge of the target items, leading to scripted and artificial dialogues. We propose a reference-free simulation framework that trains two independent LLMs, one as the user and one as the conversational recommender. These models interact in real-time without access to predetermined target items, but preference summaries and target attributes, enabling the recommender to genuinely infer user preferences through dialogue. This approach produces more realistic and diverse conversations that closely mirror authentic human-AI interactions. Our reference-free simulators match or exceed existing methods in quality, while offering a scalable solution for generating high-quality conversational recommendation data without constraining conversations to pre-defined target items. We conduct both quantitative and human evaluations to confirm the effectiveness of our reference-free approach.

cs.AI cs.IR

参考文献 (20)

Towards Unified Conversational Recommender Systems via Knowledge-Enhanced Prompt Learning

Xiaolei Wang, Kun Zhou, Ji-rong Wen 等

2022 186 引用 ⭐ 高影响力查看解读 →

Pearl: A Review-driven Persona-Knowledge Grounded Conversational Recommendation Dataset

Minjin Kim, Minju Kim, Hana Kim 等

2024 26 引用 ⭐ 高影响力查看解读 →

How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation

Lixi Zhu, Xiaowen Huang, Jitao Sang

2024 36 引用查看解读 →

Multi-Objective Intrinsic Reward Learning for Conversational Recommender Systems

Zhendong Chu, Nan Wang, Hongning Wang

2023 4 引用查看解读 →

From Reviews to Dialogues: Active Synthesis for Zero-Shot LLM-based Conversational Recommender System

Rohan Surana, Junda Wu, Zhouhang Xie 等

2025 5 引用查看解读 →

Recommendation as a Communication Game: Self-Supervised Bot-Play for Goal-oriented Dialogue

Dongyeop Kang, Anusha Balakrishnan, Pararth Shah 等

2019 120 引用查看解读 →

A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems

Lixi Zhu, Xiaowen Huang, Jitao Sang

2024 12 引用查看解读 →

BPR: Bayesian Personalized Ranking from Implicit Feedback

Steffen Rendle, Christoph Freudenthaler, Zeno Gantner 等

2009 6481 引用查看解读 →

PlatoLM: Teaching LLMs in Multi-Round Dialogue via a User Simulator

Chuyi Kong, Yaxin Fan, Xiang Wan 等

2023 25 引用查看解读 →

Don't lie to your friends: Learning what you know from collaborative self-play

Jacob Eisenstein, Reza Aghajani, Adam Fisch 等

2025 8 引用查看解读 →

Doing Personal LAPS: LLM-Augmented Dialogue Construction for Personalized Multi-Session Conversational Search

Hideaki Joko, Shubham Chatterjee, A. Ramsay 等

2024 45 引用查看解读 →

Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models

Xiaolei Wang, Xinyu Tang, Wayne Xin Zhao 等

2023 84 引用查看解读 →

LLM-REDIAL: A Large-Scale Dataset for Conversational Recommender Systems Created from User Behaviors with LLMs

Tingting Liang, Chenxin Jin, Lingzhi Wang 等

2024 27 引用

Empowering Retrieval-based Conversational Recommendation with Contrasting User Preferences

Heejin Kook, Junyoung Kim, Seongmin Park 等

2025 4 引用查看解读 →

ChatGPT as a Conversational Recommender System: A User-Centric Analysis

A. Manzoor, Samuel C. Ziegler, Klaus Maria. Pirker Garcia 等

2024 16 引用

TinyBERT: Distilling BERT for Natural Language Understanding

Xiaoqi Jiao, Yichun Yin, Lifeng Shang 等

2019 2256 引用查看解读 →

A Conversation is Worth A Thousand Recommendations: A Survey of Holistic Conversational Recommender Systems

Chuang Li, Hengchang Hu, Yan Zhang 等

2023 7 引用查看解读 →

Towards Deep Conversational Recommendations

Raymond Li, Samira Ebrahimi Kahou, Hannes Schulz 等

2018 449 引用查看解读 →

FACE: A Fine-grained Reference Free Evaluator for Conversational Recommender Systems

Hideaki Joko, Faegheh Hasibi

2025 4 引用查看解读 →

BERTScore: Evaluating Text Generation with BERT

Tianyi Zhang, Varsha Kishore, Felix Wu 等

2019 8001 引用查看解读 →

Interplay: Training Independent Simulators for Reference-Free Conversational Recommendation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

大语言模型 (Large Language Model)

对话推荐系统 (Conversational Recommender System)

无参考模拟 (Reference-Free Simulation)

数据泄露 (Data Leakage)

结构化动作生成 (Structured Action Generation)

角色特定的损失掩码 (Role-Specific Loss Masking)

成功率 (Success Rate)

Match Score

Recall@1

BertScore

Dist-4

开放域闲聊 (Open-Domain Chit-Chat)

多意图话语 (Multi-Intent Utterance)

模块化系统 (Modular System)

人类评估 (Human Evaluation)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

在线电影推荐

电子商务平台

客户服务

远期愿景

跨领域对话推荐

智能对话助手

原文摘要

参考文献 (20)

相关论文

Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft

Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding

SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

Large Language Models Exhibit Normative Conformity

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问