Vector Policy Optimization: Training for Diversity Improves Test-Time Search
提出Vector Policy Optimization(VPO)算法,通过训练多样化策略显著提升测试时搜索性能,最高提升达20%以上。
核心发现
方法论
本文提出Vector Policy Optimization(VPO)算法,针对大语言模型后训练阶段,利用多目标奖励向量训练策略以生成多样化解答集合。VPO结合多答案生成机制和随机化奖励标量化,训练模型在单次自回归生成中输出多个候选答案,每个答案针对不同的奖励权重向量进行优化,覆盖奖励空间的Pareto前沿。该方法替代传统GRPO优势估计器,显著提升了测试时搜索(如pass@k和best@k)性能,尤其在复杂进化搜索AlphaEvolve中表现优异。
关键结果
- 在四个任务(Maze导航、MuSiQue多跳问答、EUREQA逻辑推理、ToolRL工具使用)中,VPO在best@k指标上均超越最强标量RL基线,且随着搜索预算增加,性能差距进一步扩大。例如MuSiQue任务中,VPO在best@30达到0.832,较GRPO提升超过10%。
- LiveCodeBench代码生成基准测试中,VPO训练的Qwen2.5-Coder-7B-Instruct模型在pass@k和best@k均优于GRPO,且在OpenEvolve进化搜索中成功解决了GRPO无法攻克的难题,展示了VPO在复杂搜索环境下的优势。
- 消融实验表明,仅多答案生成(Multi-RLVR)或随机奖励权重标量化均无法达到VPO的效果,表明多样性奖励信号和多答案生成机制的协同作用是性能提升的关键。
研究意义
本研究针对大语言模型在推理时依赖搜索策略的现实应用场景,提出了专门优化策略多样性的后训练方法,解决了传统标量奖励训练导致候选解多样性不足的问题。该方法不仅提升了模型在多目标任务中的泛化能力,也为复杂搜索算法提供了更丰富的候选解空间,推动了语言模型与搜索算法的协同发展,对学术界多目标强化学习和工业界大规模模型部署均有重要意义。
技术贡献
技术上,VPO创新性地将多答案自回归生成与随机化奖励标量化结合,形成稳定的集合级优化目标,直接优化覆盖奖励向量空间的Pareto前沿。相比传统GRPO仅优化单一标量奖励,VPO通过训练模型输出在不同奖励权重下均表现优异的多样化解,显著缓解了策略坍缩问题,提升了测试时搜索的有效性和效率。
新颖性
VPO首次将多目标强化学习中的随机标量化技术与语言模型多答案生成机制结合,专门针对测试时搜索需求设计训练目标,区别于以往单目标优化或条件策略训练,强调策略集合的多样性而非单一最优解,填补了推理时搜索与训练目标不匹配的空白。
局限性
- VPO的优势依赖于奖励向量的非共线性,若奖励组件高度相关或接近标量,性能提升有限,甚至可能不及传统方法。
- 训练过程中需要多答案生成和多次奖励权重采样,计算资源消耗较传统单答案标量训练更高,限制了大规模模型的快速迭代。
- 目前VPO主要验证于四个任务和特定模型架构,泛化到更复杂多模态或超大规模模型仍需进一步实验验证。
未来方向
未来工作可探索更高效的多答案生成策略以降低计算成本,结合自适应奖励权重采样提升训练稳定性,扩展VPO至多模态任务和更大规模语言模型。此外,研究如何将VPO与其他搜索算法深度融合,提升复杂任务中的搜索效率和解的质量,是重要方向。
AI 总览摘要
随着大语言模型(LLM)在多样化任务中的广泛应用,模型不仅需要具备强大的单次推理能力,更需支持复杂的测试时搜索策略,如AlphaEvolve等进化搜索方法,这些方法依赖于从模型生成的多样化候选解中选出最优解。然而,传统的LLM后训练范式通常针对单一标量奖励进行优化,导致生成的解集缺乏多样性,限制了搜索算法的效能。针对这一瓶颈,本文提出了Vector Policy Optimization(VPO)算法,专门训练模型生成覆盖多目标奖励空间的多样化解集,从而提升测试时搜索的表现。
VPO的核心思想是利用任务中自然存在的向量化奖励信号,如代码生成中的每个测试用例正确率、多跳问答中的每个跳数正确率等,将奖励向量随机标量化,训练模型在单次自回归生成中输出多个答案,每个答案针对不同的奖励权重向量进行优化,覆盖奖励空间的Pareto前沿。该方法替代传统的GRPO优势估计器,形成稳定的集合级优化目标,显著缓解了策略坍缩问题。
通过在Maze导航、MuSiQue多跳问答、EUREQA逻辑推理和ToolRL工具使用四个任务上的广泛实验,VPO在best@k指标上均超越最强的标量基线,且随着搜索预算增加,性能差距进一步扩大。特别是在LiveCodeBench代码生成任务中,VPO训练的模型不仅提升了pass@k和best@k,还在OpenEvolve进化搜索中成功解决了传统方法无法攻克的难题,展示了其在复杂搜索环境下的强大优势。
消融实验进一步表明,单纯的多答案生成或随机奖励权重标量化均不足以实现性能提升,VPO的成功依赖于两者的协同作用。该研究不仅为多目标强化学习提供了新的训练范式,也为大语言模型与测试时搜索的结合提供了理论和实践基础,推动了模型训练目标与推理机制的深度融合。
尽管VPO表现优异,但其依赖于奖励向量的非共线性,且计算资源消耗较高,未来工作将聚焦于提升训练效率、扩展任务类型及模型规模,并探索与更复杂搜索算法的结合。随着测试时搜索技术的普及,优化策略多样性有望成为大语言模型后训练的标准目标,促进模型在实际应用中的泛化与适应能力。整体来看,VPO为提升语言模型在多目标、多策略环境下的表现提供了切实可行的解决方案,具有重要的学术价值和应用前景。
深度分析
研究背景
近年来,大语言模型(LLM)在自然语言处理、代码生成、多跳推理等领域取得了突破性进展。传统训练方法多基于单一标量奖励,如准确率或人类反馈评分,优化模型输出的平均表现。然而,实际应用中,模型常被嵌入复杂的测试时搜索框架,如AlphaEvolve等进化搜索算法,这些算法通过生成大量候选解并从中筛选最优解来提升性能。此时,模型输出的候选解多样性成为关键,直接影响搜索效率和最终表现。现有标量奖励训练往往导致策略坍缩,生成的解集缺乏多样性,限制了搜索潜力。多目标强化学习和多样性维护在传统RL领域已有研究,但如何将其有效应用于大语言模型的后训练阶段,尤其结合多答案生成机制,尚属空白。本文基于此背景,提出了Vector Policy Optimization(VPO),旨在通过多目标奖励向量训练,显著提升模型生成解集的多样性和质量,满足测试时搜索的需求。
核心问题
核心问题在于当前大语言模型后训练阶段通常采用固定的标量奖励函数,导致生成的候选解集合趋于单一模式,缺乏必要的多样性,难以满足测试时搜索对多样化解的需求。具体瓶颈包括:1)单一标量奖励使策略过早收敛,抑制探索多样化解的能力;2)多目标任务中不同奖励维度存在权衡,单一标量化无法充分反映多样化需求;3)多答案生成虽提供了生成多解的能力,但缺乏多样性激励,导致解集仍趋同。解决这一问题对于提升复杂任务中搜索算法的效率和效果至关重要,尤其在代码生成、多跳推理等需要综合多维度指标的场景中,缺乏多样性限制了模型的泛化和适应能力。
核心创新
本文的核心创新包括:
1)提出Vector Policy Optimization(VPO)算法,利用任务中自然存在的向量化奖励信号,随机采样奖励权重向量,对多答案生成的解集进行集合级优化,覆盖奖励空间的Pareto前沿,显著提升解集多样性。
2)结合多答案自回归生成机制,使模型在单次生成中输出多个候选答案,后续答案可基于前序答案调整策略,形成显式的上下文多样性探索,区别于传统独立采样。
3)设计稳定的训练目标,通过随机标量化奖励权重和最大化集合中最佳解的期望奖励,避免策略坍缩,保证训练过程中的多样性激励。
4)系统性消融实验验证多答案生成和随机奖励权重标量化的协同作用,明确了各组件的贡献和必要性。
这些创新突破了传统单目标强化学习的限制,首次将多目标RL技术与语言模型多答案生成深度结合,专门针对测试时搜索需求设计训练范式。
方法详解
- �� 多答案生成机制:基于Puri等人(2026)的方法,模型在单次自回归生成中输出m个候选答案,答案间用分隔符分开,后续答案可参考前序答案,形成上下文依赖的多样化生成。
- �� 奖励向量随机标量化:针对每个生成集合,随机采样奖励权重向量w,权重服从Dirichlet分布,覆盖奖励空间的不同权衡。
- �� 集合级奖励定义:对生成的候选集合S,计算在每个采样权重w下的最大加权奖励max_{y∈S} w^T r(x,y),集合奖励为所有采样权重下最大奖励的均值。
- �� 优势估计器替换:用VPO替代传统GRPO优势估计器,计算集合奖励对应的优势,反向传播更新模型参数。
- �� 训练流程:对每个提示x,采样G组多答案集合,每组对应K个随机权重,计算集合奖励并更新策略,确保模型学习生成覆盖奖励空间的多样化解集。
- �� 评估指标:采用best@k和pass@k等测试时搜索指标,衡量模型生成解集在不同搜索预算下的表现。
该方法通过显式优化奖励空间覆盖,促进模型生成多样化且高质量的解,满足复杂搜索算法的需求。
实验设计
实验涵盖四个任务:
1)Maze导航任务:9×9网格,模型输出动作序列,奖励包括收集金币、钻石和避免熔岩等多维指标,训练Qwen3-4B模型,评估100个测试迷宫。
2)MuSiQue多跳问答:从20个候选段落中选择支持段落并回答问题,奖励包含4个跳数的引用指标和连续的答案F1分数,训练Qwen3-1.7B,评估300个问题。
3)EUREQA逻辑推理:通过五个关系链识别五个实体,奖励为每个实体的二元正确性,训练Qwen3-8B,评估难度较高的测试集,平均4次评估。
4)ToolRL工具使用:奖励包含结构格式和三个连续F1指标,训练Qwen3-1.7B,评估80个提示,平均4次评估。
基线包括GRPO、Multi-RLVR、随机权重GRPO、Max-at-k训练、MaxRL和目标条件GRPO,全面比较各方法对多样性和测试时搜索性能的影响。训练细节详见附录B,评估指标以best@k为主,考察不同搜索预算下性能变化。
结果分析
VPO在所有四个任务中均显著优于标量基线GRPO和其他消融方法。具体表现为:
- �� MuSiQue任务中,VPO在best@30达到0.832,较GRPO提升约10%,且随着k增大,性能差距扩大。
- �� Maze任务中,VPO在best@30达到0.671,远超GRPO的0.432,显示出对多目标权衡的有效覆盖。
- �� EUREQA和ToolRL任务中,VPO同样保持领先,且多答案生成与随机奖励权重的结合是提升的关键。
- �� 在LiveCodeBench代码生成任务中,VPO训练的模型在pass@k和best@k均优于GRPO,且在OpenEvolve进化搜索中成功解决了GRPO无法攻克的难题,体现了VPO在复杂搜索环境中的优势。
消融实验表明,单独多答案生成或随机奖励权重标量化均不足以实现性能提升,必须二者结合形成集合级多样性激励。
应用场景
VPO适用于需要测试时搜索的多目标任务,如代码生成、多跳问答、复杂逻辑推理和工具调用等。它能为搜索算法提供多样化、高质量的候选解集,提升搜索效率和最终性能。工业界可将VPO集成于大语言模型后训练流程,优化模型在复杂任务中的泛化能力和适应性。科研领域,VPO为多目标强化学习与语言模型训练结合提供新范式,促进多样性维护与探索策略的研究。未来可扩展至多模态任务和更大规模模型,推动智能体在复杂环境中的表现提升。
局限与展望
VPO的性能依赖于奖励向量的非共线性,若奖励组件高度相关,策略多样性难以形成,性能提升有限。训练过程计算资源消耗较高,因多答案生成和多次奖励权重采样增加了计算负担,限制了大规模模型的快速迭代。此外,目前实验主要集中在四个任务和特定模型架构,泛化能力尚需更多验证。未来需探索更高效训练机制和更广泛的任务适用性。
原文摘要
Language models must now generalize out of the box to novel environments and work inside inference-scaling search procedures, such as AlphaEvolve, that select rollouts with a variety of task-specific reward functions. Unfortunately, the standard paradigm of LLM post-training optimizes a pre-specified scalar reward, often leading current LLMs to produce low-entropy response distributions and thus to struggle at displaying the diversity that inference-time search will require. We propose Vector Policy Optimization (VPO), an RL algorithm that explicitly trains policies to anticipate diverse downstream reward functions and to produce diverse solutions. VPO exploits that rewards are often vector-valued in practice, like per-test-case correctness in code generation or, say, multiple different user personas or reward models. VPO is essentially a drop-in replacement for the GRPO advantage estimator, but it trains the LLM to output a set of solutions where individual solutions specialize to different trade-offs in the vector reward space. Across four tasks, VPO matches or beats the strongest scalar RL baselines on test-time search (e.g. pass@k and best@k), with the gap widening as the search budget grows. For evolutionary search, VPO models unlock problems that GRPO models cannot solve at all. As test-time search becomes more standardized, optimizing for diversity may need to become the default post-training objective.
参考文献 (20)
Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models
Zhipeng Chen, Xiaobo Qin, Youbin Wu 等
ToolRL: Reward is All Tool Learning Needs
Cheng Qian, Emre Can Acikgoz, Qi He 等
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
Zhihong Shao, Peiyi Wang, Qihao Zhu 等
Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models
Isha Puri, Mehul Damani, Idan Shenfeld 等
InfAlign: Inference-aware language model alignment
Ananth Balashankar, Ziteng Sun, Jonathan Berant 等
HybridFlow: A Flexible and Efficient RLHF Framework
Guangming Sheng, Chi Zhang, Zilingfeng Ye 等
Curiosity-driven Red-teaming for Large Language Models
Zhang-Wei Hong, Idan Shenfeld, Tsun-Hsuan Wang 等
Inference-Aware Fine-Tuning for Best-of-N Sampling in Large Language Models
Yinlam Chow, Guy Tennenholtz, Izzeddin Gur 等
A practical guide to multi-objective reinforcement learning and planning
Conor F. Hayes, Roxana Ruadulescu, Eugenio Bargiacchi 等
e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs
Amrith Rajagopal Setlur, Matthew Y. R. Yang, C. Snell 等
Training Verifiers to Solve Math Word Problems
K. Cobbe, Vineet Kosaraju, Mo Bavarian 等
Mathematical discoveries from program search with large language models
B. Romera-Paredes, M. Barekatain, Alexander Novikov 等
Random Latent Exploration for Deep Reinforcement Learning
Srinath Mahankali, Zhang-Wei Hong, Ayush Sekhari 等
Understanding the Effects of RLHF on LLM Generalisation and Diversity
Robert Kirk, Ishita Mediratta, Christoforos Nalmpantis 等
The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation
Farid Bagirov, Mikhail Arkhipov, Ksenia Sycheva 等
LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code
Naman Jain, King Han, Alex Gu 等
Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts
Haoxiang Wang, Wei Xiong, Tengyang Xie 等
Evaluating Large Language Models Trained on Code
Mark Chen, Jerry Tworek, Heewoo Jun 等
A Survey of Multi-Objective Sequential Decision-Making
D. Roijers, P. Vamplew, Shimon Whiteson 等
Exploration in Deep Reinforcement Learning: A Survey
Pawel Ladosz, Lilian Weng, Minwoo Kim 等