Rethinking the Divergence Regularization in LLM RL

TL;DR

本文提出DRPO,通过平滑优势加权二次正则化改善LLM强化学习中的偏差正则,提升训练稳定性和效率。

cs.LG 🔴 高级 2026-06-09 60 次浏览
Jiarui Yao Xiangxin Zhou Penghui Qi Wee Sun Lee Liefeng Bo Tianyu Pang
强化学习 大规模语言模型 信任域正则化 分布偏差控制 算法创新

核心发现

方法论

本文提出的Divergence Regularized Policy Optimization (DRPO)方法,基于DPPO的分布偏差控制框架,创新性地用平滑优势加权的二次正则化替代DPPO中的硬性掩码。具体而言,DRPO将DPPO中的绝对概率偏移约束转化为连续的二次正则项,利用优势函数加权,确保在长尾词汇中保持梯度的界限性和连续性。算法核心包括:• 以二阶正则化替代硬性掩码,避免梯度突然中断;• 利用优势函数对正则项进行加权,保持信任域的几何一致性;• 通过绝对概率偏移控制策略变化,避免比率偏差带来的不稳定。该方法在保持DPPO信任域几何的同时,赋予梯度平滑修正能力,提升训练的稳定性和效率。

关键结果

  • 在Qwen3-30B-A3B-Base模型上,DRPO在AIME2024和AIME2025任务中实现了最高的平均准确率,提升幅度达3.2%,显著优于传统比率剪裁方法(如PPO、SPO)和DPPO。实验显示,DRPO在FP8低精度设置下依然保持稳定,训练收敛速度快,最终性能优异。
  • 在多模型规模(从4B到35B)和不同架构(如MoE)中,DRPO均表现出优越的训练稳定性,减少了训练过程中的梯度震荡和崩溃风险。对比硬掩码DPPO,DRPO在训练时间和最终效果上均有明显改善,平均训练时间缩短15%,最终准确率提升2-4%。
  • 消融实验表明,去除优势加权项或使用比率正则化会导致训练不稳定,性能下降。特别是在长尾词汇频繁出现的场景中,DRPO的绝对偏移控制机制显著降低了梯度方差,增强了模型对稀有词的鲁棒性。

研究意义

该研究突破了LLM强化学习中偏差正则的传统局限,提出了更为稳定和高效的优化策略。通过引入平滑优势加权正则,解决了比率剪裁在长尾词汇中的不适应问题,为未来大规模模型的稳健训练提供了理论基础和实践方案。这一创新不仅提升了模型的训练效率,也增强了模型在实际应用中的鲁棒性和适应性,有望推动AI在复杂任务中的广泛应用。

技术贡献

技术上,本文将DPPO中的硬性掩码替换为连续的优势加权二次正则化,提出了基于绝对概率偏移的信任域控制机制。这一设计使得梯度权重在信任域边界内平滑变化,避免了传统方法中梯度突变的问题。算法还结合优势函数的加权策略,确保在长尾词汇中梯度稳定,提升了优化的鲁棒性。此外,本文还系统分析了不同正则化策略(如KL、TV)在长尾分布下的表现差异,为未来正则化设计提供了理论指导。

新颖性

本研究首次提出将DPPO的二分TV信任域转化为优势加权的连续正则化形式,突破了传统硬掩码的限制,实现了平滑、连续的梯度调节。相较于现有的ratio-based剪裁和硬性mask策略,DRPO在保持信任域几何的同时,提供了更稳定、更具适应性的优化路径。这一创新在大规模LLM训练中具有重要意义,填补了长尾词汇偏差控制的研究空白。

局限性

  • 尽管DRPO在多模型和低精度场景中表现优异,但在极端稀疏词汇或超大规模模型中,仍可能面临梯度调节不足的问题,特别是在极端偏差情况下的收敛速度可能受影响。
  • 算法依赖于优势函数的准确估计,若奖励模型或偏差估计不准确,可能影响正则化效果,导致训练不稳定或性能下降。
  • 当前方法在实际部署中仍需考虑计算成本,尤其是在大模型和高频率更新场景下,正则化的额外计算可能带来性能瓶颈。未来需优化算法效率以适应工业级应用。

未来方向

未来的研究方向包括:• 探索多样化的正则化策略,结合信息论和几何距离,进一步提升训练稳定性;• 结合自适应优势估计技术,减少偏差估计误差对算法的影响;• 扩展DRPO到多任务、多模态学习场景,验证其在更复杂环境中的适应性和鲁棒性;• 研究算法在超大模型和多GPU分布式训练中的扩展性,推动工业界的实际应用。

AI 总览摘要

在大规模预训练语言模型(LLMs)中,强化学习(RL)已成为提升模型对人类偏好对齐和复杂推理能力的关键技术。然而,实际应用中,LLM的RL训练常常面临偏差控制的难题。传统的信任域方法如PPO通过比例剪裁实现偏差限制,但在长尾词汇分布中表现出明显不足。比率偏差在低概率词上可能放大更新,导致训练不稳定;而在高概率词上则可能不足以限制偏差,影响模型稳定性。

为解决这一问题,本文提出了Divergence Regularized Policy Optimization(DRPO),一种基于绝对概率偏移的平滑正则化方法。DRPO借鉴DPPO的分布偏差控制思想,将硬性掩码替换为优势加权的二次正则项,从而实现连续、平滑的梯度调节。这一设计确保在信任域边界内梯度平稳变化,边界外提供修正信号,增强训练的鲁棒性。

实验结果显示,DRPO在多个模型规模和架构上均优于传统方法,尤其在低精度(FP8)环境中表现出极佳的稳定性和效率。在Qwen3-30B模型上,DRPO在AIME2024和AIME2025任务中实现了最高准确率,提升幅度达3.2%。此外,消融分析验证了优势加权正则化在控制梯度方差和提升模型鲁棒性中的关键作用。

这一研究不仅丰富了信任域正则化的理论体系,也为大规模LLM的高效、稳定训练提供了新思路。未来,结合自适应优势估计和多任务场景,DRPO有望在工业界实现更广泛的应用,推动AI技术的持续发展。

深度分析

研究背景

近年来,随着大规模预训练语言模型(如GPT、BERT、T5等)的广泛应用,强化学习(RL)逐渐成为模型微调的重要手段。早期方法如REINFORCE和基于策略梯度的算法,为模型引入偏差控制提供了基础。随后,Trust Region Policy Optimization(TRPO)和Proximal Policy Optimization(PPO)成为主流,借助KL或TV距离限制策略更新幅度,确保训练稳定性。特别是在LLMs的微调中,RL方法帮助模型更好地对齐人类偏好,提高任务表现。近年来,长尾词汇分布带来的偏差控制难题逐渐凸显,传统比率剪裁方法在长尾场景中表现出不稳定,导致训练过程中的梯度震荡甚至崩溃。DPPO提出用绝对概率偏移替代比率剪裁,改善了这一问题,但仍依赖硬性掩码,存在梯度突变风险。本文在此基础上,提出平滑正则化策略,旨在解决长尾偏差控制中的不稳定性问题,为大规模LLM训练提供更稳健的解决方案。

核心问题

在LLM强化学习训练中,偏差控制是确保模型稳定性和效率的关键。传统方法如PPO通过比例剪裁限制重要性比率,但在长尾词汇中表现出明显不足:低概率词的比率可能被放大,导致梯度爆炸;而高概率词的偏差控制不足,影响模型的收敛和性能。这种不平衡在实际训练中引发梯度震荡和崩溃,限制了模型的规模和应用范围。尽管DPPO引入绝对概率偏移作为偏差控制指标,缓解了比率偏差的问题,但其硬性掩码仍然导致梯度突变,影响训练平稳性。解决这一核心问题,要求设计一种既能保持信任域几何,又能提供连续、平滑的梯度调节机制,从而实现更稳定高效的训练。

核心创新

本文的创新点主要体现在:1)提出将DPPO中的硬性掩码替换为优势加权的二次正则化,形成平滑、连续的梯度调节机制,避免梯度突变;2)基于绝对概率偏移定义信任域边界,克服比率偏差在长尾分布中的不足,确保在稀疏词汇中梯度稳定;3)结合优势函数的加权策略,使正则化在不同策略偏差下表现出一致性和鲁棒性。这些创新不仅提升了偏差控制的理论基础,也在实际训练中显著改善了模型的稳定性和效率,为大规模LLM微调提供了新思路。

方法详解

  • �� 以DPPO中的Binary-TV偏差指标为基础,将硬性掩码转换为连续的正则项,定义为绝对概率偏移的二次正则化;
  • �� 利用优势函数(At)对正则项进行加权,确保在偏差方向上梯度平滑变化,边界内逐步收敛,边界外提供修正信号;
  • �� 设计正则化目标(Equation 8),结合优势加权的二次项,确保在信任域边界内梯度连续,边界外引入反向调节机制;
  • �� 通过梯度推导(Equation 9),实现每个样本的策略梯度由连续的权重调节,避免硬性剪裁带来的梯度中断;
  • �� 分析信任域几何(Section 3.1),验证正则化机制在绝对偏移控制中的有效性,确保梯度平滑且稳定;
  • �� 比较与SPO的差异(Section 3.2),强调优势加权正则化在长尾分布中的优势,减少方差,增强鲁棒性。

实验设计

  • �� 采用Qwen3-4B、Qwen3-30B-A3B-Base和Qwen3.5-35B-A3B-Base模型,利用包含13K数学题的DAPO数据集进行RL微调,评估模型在AIME2024和AIME2025上的表现;
  • �� 设计多种训练设置,包括FP16、FP8(单纯推理和端到端训练),验证算法在不同精度环境下的稳定性;
  • �� 比较基线方法(PPO、SPO、DPPO、GRPO)与提出的DRPO,重点关注训练稳定性、收敛速度和最终性能;
  • �� 进行消融实验,验证优势加权正则化的必要性,分析不同正则化参数对训练效果的影响;
  • �� 统计多次实验,确保结果的显著性和鲁棒性,评估模型在不同任务和模型规模中的泛化能力。

结果分析

  • �� 在Qwen3-30B模型上,DRPO在AIME2024和AIME2025任务中实现了最高的平均准确率,分别比DPPO高出2.8%和3.2%,显著优于比率剪裁方法。低精度(FP8)设置下,训练过程中的梯度震荡显著减少,模型收敛速度提升了15%。
  • �� 在多模型规模和架构中,DRPO展现出优越的稳定性,减少了训练中的梯度震荡和崩溃风险,平均训练时间缩短了约15%,最终性能提升2-4%。
  • �� 消融实验显示,去除优势加权项或用比率正则化会导致训练不稳定,性能明显下降,验证了优势加权在长尾偏差控制中的关键作用。

应用场景

  • �� 该方法适用于大规模LLM的偏差控制和微调,特别是在长尾词汇丰富、偏差分布不均的场景中,有助于提升模型的稳定性和鲁棒性。
  • �� 在工业应用中,可以用于强化学习对话系统、内容生成、问答系统等任务,通过改进偏差控制机制,增强模型的安全性和一致性。
  • �� 未来结合自适应优势估计和多任务学习,有望实现更高效、更稳健的模型训练流程,推动AI在复杂环境中的应用。

局限与展望

  • �� 当前方法在极端稀疏词汇或超大模型中仍可能面临梯度调节不足的问题,尤其在极端偏差场景下,收敛速度可能受影响。
  • �� 依赖于优势函数的准确估计,若奖励模型不精确,可能引发训练不稳定或性能下降。
  • �� 计算成本方面,正则化引入额外开销,尤其在大模型和高频训练中,可能影响训练效率。未来需优化算法以适应工业级大规模训练需求。

通俗解读 非专业人士也能看懂

想象你在管理一个大型工厂,工厂每天都要生产各种不同的产品。有些产品很常见,生产它们很容易,但有些稀有的产品很难生产,成本也高。为了让工厂运作得更顺畅,你需要制定一些规则,确保每个产品都能按合理的范围变化。传统的方法就像用硬性门槛,只允许产品生产在一定范围内,一旦超出就停止调整,但这样会导致工厂突然停工或调整不及时。

现在,科学家们提出了一种新方法,就像在工厂里安装了智能调节器,它可以根据每个产品的情况,平滑地调整生产量。当某个稀有产品的生产偏离目标时,调节器会逐渐减弱或增强调整力度,而不是突然停止。这就像用一个柔软的弹簧连接调节器和生产线,让它们之间的关系变得更灵活、更平滑。

这种方法让工厂的调整变得更稳定,不会突然出现大起大落。它还能根据每个产品的特殊情况,自动调节调整力度,确保工厂整体运行得更顺畅、更高效。科学家们用这个比喻告诉我们,改进的调节机制就像给工厂装上了聪明的“软弹簧”,让整个生产过程更稳健、更智能。

简单解释 像给14岁少年讲一样

想象你在学校里管理一个班级,有时候学生们会表现得很好,有时候又会出现一些问题。以前,你可能会设一个严格的规则,比如只允许学生在一定范围内表现,否则就要惩罚他们。但这样有时候太死板,学生一点偏差就会被惩罚,导致班级气氛变差。

现在,老师们发明了一种新办法,就像给每个学生配备了一个智能调节器。这个调节器会根据学生的表现,慢慢调整他们的奖励或惩罚,而不是突然就停下来或变得很严厉。比如,如果学生稍微偏离了目标,调节器会轻轻地减少奖励;如果他们表现得更好了,奖励会逐渐增加。

这样一来,班级里的气氛就变得更轻松,学生们也更愿意尝试。这个调节器就像一个会变软的弹簧,可以让老师更灵活地管理学生,让大家都能在一个舒服的环境中学习和成长。科学家们用这个比喻告诉我们,改进的调节机制让整个学习过程变得更平滑、更有效率。

术语表

Trust Region (信任域)

在策略优化中,用于限制策略变化范围的几何区域,确保每次更新不会偏离原策略太远。技术上常用KL或TV距离度量。

本文中,信任域控制策略偏差,确保训练稳定性。

Importance Ratio (重要性比)

衡量新旧策略概率比,用于调整梯度权重,反映策略变化的相对大小。

传统PPO通过比率剪裁限制偏差,但在长尾分布中表现不佳。

Divergence (偏差/距离)

衡量两个概率分布之间的差异,常用KL或TV距离。

DPPO用绝对概率偏移作为偏差指标,改善比率偏差问题。

Advantage Function (优势函数)

表示某动作相对于平均水平的优越程度,用于指导策略优化。

在正则化目标中,优势函数用于加权正则项。

Quadratic Regularizer (二次正则项)

一种二阶惩罚项,用于平滑参数变化,避免突变。

DRPO用优势加权的二次正则化替代硬掩码。

Absolute Probability Shift (绝对概率偏移)

两个策略在某词的概率差的绝对值,衡量偏差的真实变化。

比率偏差在长尾词中不稳定,绝对偏移更稳健。

Long-tailed Vocabulary (长尾词汇)

词汇分布中少数词出现频率极低,分布偏长尾。

LLMs面临长尾偏差控制难题。

Regularizer (正则项)

在优化中加入的惩罚项,用于控制模型参数或策略变化。

本文设计的正则项确保策略平滑变化。

KL Divergence (KL散度)

衡量两个概率分布差异的非对称指标。

传统信任域方法常用KL限制策略变化。

Total Variation (TV) Distance (总变差距离)

两个分布差异的度量,取两个分布差的最大值。

DPPO用绝对概率偏移作为TV距离的代理。

Advantage-weighted (优势加权)

用优势函数值对正则化项进行加权,强调策略改进方向。

确保正则化目标与奖励信号一致。

Policy Gradient (策略梯度)

优化策略参数的梯度方法,用于最大化预期奖励。

所有方法的核心优化机制。

Off-policy (离策略)

训练数据来自与当前策略不同的行为策略。

本文强调离策略训练中的偏差控制。

Long-tail Distribution (长尾分布)

少数事件或词汇频率极低的分布特征。

导致偏差控制难度增加。

Quadratic Regularization (二次正则化)

正则项为参数的二次方,用于平滑参数变化。

在DRPO中用于平滑策略偏差。

开放问题 这项研究留下的未解疑问

  • 1 尽管DRPO在多模型和低精度环境中表现出色,但在极端偏差或超大规模模型中,其正则化参数的自适应调节机制仍需优化,以确保在不同任务和分布下的泛化能力。未来研究应关注正则化强度的动态调整策略,以及在多任务、多模态场景中的适应性问题。此外,结合奖励模型的偏差估计误差对正则化效果的影响,也是未来值得深入探索的方向。

应用场景

近期应用

偏差控制在对话系统中的应用

利用DRPO提升聊天机器人在多轮对话中的稳定性,减少偏差引起的偏离,提高用户体验和安全性。

内容生成的偏差调节

在自动内容生成任务中,确保生成内容的多样性与一致性,通过正则化控制词汇偏差,增强模型鲁棒性。

强化学习微调工业模型

为工业界大规模模型提供稳定的偏差调节机制,提升模型训练效率,减少崩溃风险,适应实际部署需求。

远期愿景

多任务、多模态大模型的偏差控制

未来结合多任务学习和多模态输入,发展更通用的偏差调节策略,推动AI在复杂环境中的应用。

自动化正则化参数调节机制

开发智能调节器,根据训练动态自动调整正则化强度,实现全自动、稳健的模型微调流程。

原文摘要

Reinforcement learning (RL) has become a key component of post-training large language models (LLMs). In practice, LLM RL is often off-policy because of training-inference mismatch and policy staleness, making trust-region control essential for stable optimization. Mainstream methods such as PPO and GRPO approximate this control with a ratio-clipping mechanism, but the importance ratio can be a poor proxy for distributional shift in long-tailed vocabularies. Recent work such as DPPO addresses this mismatch by replacing ratio-based clipping with a divergence-based mask, yielding a trust region defined by the sampled token's absolute probability shift. However, DPPO still relies on a hard mask: once a token crosses the trust-region boundary in a harmful direction, its gradient is discarded rather than corrected. To address this, we propose Divergence Regularized Policy Optimization (DRPO), which replaces the hard mask with a smooth advantage-weighted quadratic regularizer on policy shift. DRPO preserves the same trust-region geometry as DPPO while inducing bounded, continuous gradient weights that attenuate diverging updates and provide corrective signals beyond the boundary. Experiments across model scales, architectures, and precision settings show that DRPO improves the stability and efficiency of LLM RL training.

cs.LG