Meituan Merchant Business Diagnosis via Policy-Guided Dual-Process User Simulation

TL;DR

通过政策引导的混合仿真框架，PGHS在美团上实现了8.80%的群体仿真误差。

cs.AI 🔴 高级 2026-04-17 32 次浏览

Ziyang Chen Renbing Chen Daowei Li Jinzhi Liao Jiashen Sun Ke Zeng Xiang Zhao

用户行为仿真政策引导大语言模型机器学习商家诊断

核心发现

方法论

本文提出了一种名为政策引导混合仿真（PGHS）的双过程框架，用于商家策略的反事实评估。该框架通过从行为轨迹中挖掘可转移的决策政策，形成共享的对齐层。此层锚定了基于大语言模型（LLM）的推理分支，防止过度理性化，以及基于机器学习（ML）的拟合分支，吸收隐含的规律性。两者的群体级预测通过共享的政策空间进行融合，以实现互补修正。

关键结果

PGHS在美团平台上部署，涉及101个商家和超过26,000条轨迹，达到了8.80%的群体仿真误差，相较于最佳推理基线和拟合基线分别提高了45.8%和40.9%。
在实验中，PGHS在不同商家类别和流量层级中表现出色，尤其是在数据稀疏的长尾商家中，表现优于其他基线模型。
通过消融研究，政策指导和双过程融合分别对LLM和ML分支的仿真误差减少了15.4%和9.7%。

研究意义

该研究在学术界和工业界具有重要意义。它解决了商家策略反事实评估中的两个结构性挑战：信息不完整性和机制二元性。通过引入政策引导的双过程框架，PGHS能够在不进行昂贵的在线实验的情况下，准确模拟用户群体行为。这一方法不仅提高了商家策略评估的效率，还为用户行为仿真提供了新的视角，可能对其他领域的群体行为预测产生积极影响。

技术贡献

PGHS的技术贡献在于其双过程框架的创新性结合。它通过共享的政策对齐层，将LLM推理和ML拟合结合起来，克服了单一范式无法同时捕捉可解释偏好和隐含统计规律的局限。此外，PGHS在处理长尾数据稀疏性和语义转变方面表现出色，为商家诊断提供了更为稳健的解决方案。

新颖性

PGHS首次将政策引导的双过程框架应用于用户行为仿真，创新性地结合了LLM和ML的优势。与传统方法相比，PGHS不仅能够捕捉显性决策逻辑，还能吸收隐含的环境规律性，为商家策略评估提供了更为全面的视角。

局限性

PGHS在处理极端长尾商家时，可能会因数据稀疏性导致预测不稳定。
模型的复杂性增加了计算成本，可能对实时应用造成挑战。
在政策挖掘阶段，用户群体的多样性可能导致策略对齐层的泛化能力受限。

未来方向

未来的研究方向包括：开发自适应融合机制，以更好地应对不同场景下的多样化数据；研究时间序列上的政策动态变化，以提高模型的时效性；在公共电子商务基准上进行验证，以扩大PGHS的适用范围和影响力。

AI 总览摘要

在现代电子商务平台上，商家需要不断调整策略以提高用户转化率。然而，传统的在线实验如A/B测试成本高昂且风险较大。为此，用户行为仿真成为一种可行的替代方案。然而，现有的仿真方法面临信息不完整性和机制二元性的问题，难以同时捕捉用户的显性偏好和隐含规律。

本文提出了一种名为政策引导混合仿真（PGHS）的新框架，通过从用户行为轨迹中挖掘可转移的决策政策，形成共享的对齐层。此层锚定了基于大语言模型（LLM）的推理分支和基于机器学习（ML）的拟合分支。推理分支通过政策文本约束LLM推理，防止过度理性化；拟合分支则利用政策向量吸收隐含的环境规律性。

在美团平台上，PGHS被部署于101个商家和26,000多条用户轨迹中。实验结果显示，PGHS的群体仿真误差仅为8.80%，相较于最佳推理基线和拟合基线分别提高了45.8%和40.9%。这种显著的性能提升表明，PGHS在商家策略评估中具有重要的应用价值。

PGHS的双过程框架不仅提高了商家策略评估的准确性，还为用户行为仿真提供了新的视角。这一方法的成功应用，可能对其他领域的群体行为预测产生积极影响，如推荐系统和市场分析。

尽管PGHS在实验中表现出色，但其复杂性增加了计算成本，可能对实时应用造成挑战。此外，模型在处理极端长尾商家时，可能会因数据稀疏性导致预测不稳定。未来的研究方向包括开发自适应融合机制和研究时间序列上的政策动态变化，以提高模型的时效性和适用范围。

深度分析

研究背景

随着电子商务平台的快速发展，商家需要不断优化其运营策略以提高用户转化率。然而，传统的在线实验如A/B测试不仅成本高昂，而且存在显著的风险，如用户体验的下降和财务损失。此外，现代策略涉及高维语义变量，如促销文案和视觉布局，这些因素的组合空间巨大，物理实验难以覆盖。因此，基于仿真的反事实评估成为一种可行的替代方案。近年来，用户行为仿真从规则和统计方法发展到基于大语言模型（LLM）的代理。然而，这些代理往往表现为过度理性的决策者，难以复制有限理性。

核心问题

在商家策略评估中，构建可信的群体级用户行为模拟器面临两个结构性挑战。首先，信息不完整性导致基于推理的模拟器在缺乏未观察因素（如线下情境和隐性习惯）时过度理性化。其次，机制二元性要求同时捕捉可解释的偏好和隐含的统计规律，而单一范式难以独立实现。尽管推理和拟合范式各有优势，但如何有效地将两者结合仍是一个未解决的挑战。

核心创新

PGHS的核心创新在于其政策引导的双过程框架：

1. 政策挖掘：从用户行为轨迹中提取可转移的决策政策，形成共享的对齐层。

2. 双过程仿真：通过共享的政策对齐层，将LLM推理和ML拟合结合起来，克服了单一范式无法同时捕捉可解释偏好和隐含统计规律的局限。

3. 群体级融合：通过共享的政策空间融合两者的群体级预测，实现互补修正。

方法详解

PGHS的实现分为三个阶段：

�� 决策政策抽象：从在线行为日志中提炼出一组可转移的决策政策，作为潜在机制的显性代理。
�� 双分支仿真：基于共享的政策表示，部署两个并行分支：一个通过LLM捕捉显性决策逻辑，另一个通过监督模型捕捉隐含规律。
�� 群体级聚合：通过历史访问日志估计每个场景的政策分布，进行蒙特卡罗模拟，融合两个分支的预测。

实验设计

实验在美团平台上进行，涵盖101个商家和26,461条用户决策轨迹，跨越五个餐饮类别和三个流量层级。每条轨迹记录了完整的搜索到购买序列，用户和商家档案通过预训练编码器编码为密集嵌入。基线模型包括Logistic Regression、XGBoost、Gradient Boosting和三层DNN。评估指标为群体仿真误差（GSE），即预测与真实每商家选择率之间的平均绝对误差。

结果分析

实验结果显示，PGHS在不同商家类别和流量层级中表现出色，尤其是在数据稀疏的长尾商家中，表现优于其他基线模型。PGHS的群体仿真误差为8.80%，标准差为6.62%，相较于最佳LLM基线提高了45.8%，相较于最佳ML基线提高了40.9%。消融研究表明，政策指导和双过程融合分别对LLM和ML分支的仿真误差减少了15.4%和9.7%。

应用场景

PGHS在商家策略评估中的应用场景包括：

�� 通过模拟不同策略下的用户行为，帮助商家优化定价、菜单结构和促销页面设计。
�� 在不进行昂贵的在线实验的情况下，评估新策略的潜在影响，降低风险。
�� 为其他领域的群体行为预测提供新的视角，如推荐系统和市场分析。

局限与展望

尽管PGHS在实验中表现出色，但其复杂性增加了计算成本，可能对实时应用造成挑战。此外，模型在处理极端长尾商家时，可能会因数据稀疏性导致预测不稳定。在政策挖掘阶段，用户群体的多样性可能导致策略对齐层的泛化能力受限。未来的研究方向包括开发自适应融合机制和研究时间序列上的政策动态变化，以提高模型的时效性和适用范围。

通俗解读非专业人士也能看懂

想象一下你在一个大型购物中心，商家们都在努力吸引顾客。每个商家都有不同的策略，比如打折、赠送小礼品或重新设计店面。现在，假设你是一个商场管理员，你需要决定哪个商家策略最有效，但你不能简单地让每个商家都尝试他们的策略，因为这可能会影响顾客的购物体验。

这时，你可以使用一种叫做PGHS的工具。PGHS就像一个虚拟购物中心，它可以模拟不同顾客在不同策略下的行为。它通过分析过去的购物数据，找到顾客做决定的规律，并用这些规律来预测在不同策略下顾客的选择。

PGHS有两个部分：一个部分像一个聪明的顾客，它通过分析商家的策略来做出理性的选择；另一个部分则像一个观察者，它记录下顾客的隐性偏好，比如他们更喜欢哪种风格的店面。通过结合这两个部分，PGHS可以更准确地预测顾客的行为，帮助商场管理员做出更明智的决策。

总之，PGHS就像是一个聪明的助手，它帮助商场管理员在不影响顾客体验的情况下，找到最有效的商家策略。

简单解释像给14岁少年讲一样

嘿，小伙伴们！今天我要跟你们聊聊一个超级酷的东西，叫做PGHS。想象一下你在玩一个模拟经营游戏，你要管理一个购物中心，里面有很多商店。每个商店都有自己的策略，比如打折、送小礼物或者重新装修。你的任务是找到最好的策略，让顾客开心地购物！

但是，你不能让每个商店都随便尝试他们的策略，因为这可能会让顾客不高兴。这时候，PGHS就派上用场啦！它就像一个虚拟的购物中心，可以模拟顾客在不同策略下的行为。它会分析过去的数据，找出顾客做选择的规律，然后用这些规律来预测顾客在不同策略下的选择。

PGHS有两个聪明的部分：一个部分像一个超级理性的顾客，它会分析商家的策略，做出最合理的选择；另一个部分像一个观察者，它会记录顾客的隐性偏好，比如他们更喜欢哪种风格的店面。通过结合这两个部分，PGHS可以更准确地预测顾客的行为，帮助你做出更好的决策。

所以，PGHS就像是你的超级助手，它帮助你在游戏中找到最好的商家策略，让你的购物中心变得更棒！

术语表

政策引导混合仿真 (Policy-Guided Hybrid Simulation)

一种结合大语言模型和机器学习的双过程框架，用于模拟用户行为并评估商家策略。

用于解决商家策略评估中的信息不完整性和机制二元性问题。

大语言模型 (Large Language Model, LLM)

一种基于深度学习的模型，能够理解和生成自然语言文本。

在PGHS中用于推理分支，防止过度理性化。

机器学习 (Machine Learning, ML)

一种通过数据训练模型以进行预测和决策的技术。

在PGHS中用于拟合分支，吸收隐含规律性。

群体仿真误差 (Group Simulation Error, GSE)

预测与真实每商家选择率之间的平均绝对误差。

用于评估PGHS在不同商家类别和流量层级中的表现。

决策政策 (Decision Policy)

从用户行为轨迹中提取的可转移决策规则，作为潜在机制的显性代理。

用于PGHS的共享对齐层，指导LLM和ML分支。

信息不完整性 (Information Incompleteness)

由于缺乏未观察因素（如线下情境和隐性习惯）导致的决策信息不足。

是PGHS框架需要解决的两个结构性挑战之一。

机制二元性 (Mechanism Duality)

同时捕捉可解释偏好和隐含统计规律的需求。

是PGHS框架需要解决的两个结构性挑战之一。

蒙特卡罗模拟 (Monte Carlo Simulation)

一种通过随机采样进行数值模拟的方法，用于估计复杂系统的行为。

用于PGHS的群体级聚合阶段。

长尾商家 (Tail Merchants)

在数据集中具有较少交互记录的商家。

PGHS在处理这些商家时表现优于其他基线模型。

消融研究 (Ablation Study)

通过移除或修改模型组件来评估其对整体性能的影响。

用于分析PGHS中政策指导和双过程融合的贡献。

开放问题这项研究留下的未解疑问

1 如何在极端长尾商家中提高PGHS的预测稳定性？目前的模型在数据稀疏性下可能表现不稳定，需要开发新的策略来增强其鲁棒性。
2 如何降低PGHS的计算成本以支持实时应用？模型的复杂性增加了计算成本，需要优化算法或硬件加速以提高效率。
3 在政策挖掘阶段，如何提高策略对齐层的泛化能力？用户群体的多样性可能导致策略对齐层的泛化能力受限，需要探索新的策略挖掘方法。
4 如何在公共电子商务基准上验证PGHS的适用性？目前的研究主要集中在美团平台上，需要在其他平台上进行验证以扩大其适用范围。
5 如何开发自适应融合机制以应对不同场景下的多样化数据？目前的融合机制可能在特定场景下表现不佳，需要探索新的自适应策略。

应用场景

近期应用

商家策略优化

通过模拟不同策略下的用户行为，帮助商家优化定价、菜单结构和促销页面设计。

风险评估

在不进行昂贵的在线实验的情况下，评估新策略的潜在影响，降低风险。

市场分析

为其他领域的群体行为预测提供新的视角，如推荐系统和市场分析。

远期愿景

跨平台应用

将PGHS应用于其他电子商务平台，扩大其适用范围和影响力。

实时决策支持

通过降低计算成本和提高效率，实现实时的商家策略评估和优化。

原文摘要

Simulating group-level user behavior enables scalable counterfactual evaluation of merchant strategies without costly online experiments. However, building a trustworthy simulator faces two structural challenges. First, information incompleteness causes reasoning-based simulators to over-rationalize when unobserved factors such as offline context and implicit habits are missing. Second, mechanism duality requires capturing both interpretable preferences and implicit statistical regularities, which no single paradigm achieves alone. We propose Policy-Guided Hybrid Simulation (PGHS), a dual-process framework that mines transferable decision policies from behavioral trajectories and uses them as a shared alignment layer. This layer anchors an LLM-based reasoning branch that prevents over-rationalization and an ML-based fitting branch that absorbs implicit regularities. Group-level predictions from both branches are fused for complementary correction. We deploy PGHS on Meituan with 101 merchants and over 26,000 trajectories. PGHS achieves a group simulation error of 8.80%, improving over the best reasoning-based and fitting-based baselines by 45.8% and 40.9% respectively.

cs.AI cs.CL

参考文献 (18)

Wide & Deep Learning for Recommender Systems

Heng-Tze Cheng, L. Koc, Jeremiah Harmsen 等

2016 4079 引用查看解读 →

User Simulation in the Era of Generative AI: User Modeling, Synthetic Data Generation, and System Evaluation

K. Balog, ChengXiang Zhai

2025 17 引用查看解读 →

Causal inference in statistics: An overview

J. Pearl

2009 2413 引用

Formal-LLM: Integrating Formal Language and Natural Language for Controllable LLM-based Agents

Zelong Li, Wenyue Hua, Hao Wang 等

2024 44 引用查看解读 →

CXSimulator: A User Behavior Simulation using LLM Embeddings for Web-Marketing Campaign Assessment

Akira Kasuga, Ryo Yonetani

2024 12 引用查看解读 →

Causal Network Motifs: Identifying Heterogeneous Spillover Effects in A/B Tests

Yuan Yuan, Kristen M. Altenburger, F. Kooti

2020 36 引用查看解读 →

Limitations of Design-based Causal Inference and A/B Testing under Arbitrary and Network Interference

Guillaume W. Basse, E. Airoldi

2017 58 引用查看解读 →

Self-Attentive Sequential Recommendation

Wang-Cheng Kang, Julian McAuley

2018 3519 引用查看解读 →

Density-Based Clustering Based on Hierarchical Density Estimates

R. Campello, D. Moulavi, J. Sander

2013 2362 引用

User Modeling in Human^Computer Interaction

Gerhard Fischer

2000 871 引用

Causation and intervention

Mathias Frisch

2014 67 引用

Deconfounded Recommendation for Alleviating Bias Amplification

Wenjie Wang, Fuli Feng, Xiangnan He 等

2021 209 引用查看解读 →

Scalable Techniques for Mining Causal Structures

Craig Silverstein, Sergey Brin, R. Motwani 等

1998 315 引用

ControlAgent: Automating Control System Design via Novel Integration of LLM Agents and Domain Expertise

Xing-ming Guo, Darioush Keivan, U. Syed 等

2024 23 引用查看解读 →

Thinking fast and slow.

N. McGlynn

2014 10998 引用

LLM-Powered User Simulator for Recommender System

Zijian Zhang, Shuchang Liu, Ziru Liu 等

2024 46 引用查看解读 →

Understanding dynamics of strategic decision-making in venture creation : a process study of effectuation and causation

I. Reymen, Petra Andries, H. Berends 等

2015 383 引用

The Foundations of Causal Decision Theory

James M. Joyce

1999 758 引用

Meituan Merchant Business Diagnosis via Policy-Guided Dual-Process User Simulation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

政策引导混合仿真 (Policy-Guided Hybrid Simulation)

大语言模型 (Large Language Model, LLM)

机器学习 (Machine Learning, ML)

群体仿真误差 (Group Simulation Error, GSE)

决策政策 (Decision Policy)

信息不完整性 (Information Incompleteness)

机制二元性 (Mechanism Duality)

蒙特卡罗模拟 (Monte Carlo Simulation)

长尾商家 (Tail Merchants)

消融研究 (Ablation Study)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

商家策略优化

风险评估

市场分析

远期愿景

跨平台应用

实时决策支持

原文摘要

参考文献 (18)

相关论文

Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft

Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity

AgentSearchBench: A Benchmark for AI Agent Search in the Wild

A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding

SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

Large Language Models Exhibit Normative Conformity

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问