STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

TL;DR

提出STARE(Surprisal-guided Token-level Advantage Reweighting),通过比率调节确保策略熵稳定,在1.5B到32B模型上提升准确率4%-8%。

cs.LG 🔴 高级 2026-06-18 36 次浏览
Haipeng Luo Qingfeng Sun Songli Wu Can Xu Wenfeng Deng Han Hu Yansong Tang
强化学习 策略熵 优势重加权 自然语言处理 模型训练稳定性

核心发现

方法论

本文基于对GRPO(Group Relative Policy Optimization)算法的第一阶梯度分析,揭示了在训练过程中策略熵崩溃的根源。研究发现,单一轨迹的优势值在每个token的熵变化中起到关键作用,但同时,下一Token的概率分布对熵敏感性函数Φ的影响导致了优势-惊讶(advantage-surprisal)四象限结构。为解决熵崩溃问题,提出STARE机制,利用批内惊讶值分位数动态识别熵临界Token子集,调节其优势权重,并引入目标熵闭环门控机制,确保训练过程中策略熵保持在目标范围内。该方法在多模型规模(1.5B至32B)和多任务场景(短链长链推理、多轮工具使用)中验证,显著提升训练稳定性和任务性能。

关键结果

  • 在AIME24和AIME25两个数学竞赛数据集上,STARE分别超越Dapo等基线4%至8%的平均准确率,表现出优异的泛化能力。模型规模从1.5B到32B均实现了训练过程的熵稳定,训练步骤达数千次,避免熵崩溃现象。具体而言,在Qwen2.5-7B模型中,STARE在训练超过5000步后,策略熵始终维持在预设目标区间,显著优于传统GRPO方法的快速熵崩溃。此外,反思Token和响应长度同步增长,表明探索-利用平衡得以持续维护,进一步激发RL训练潜能。
  • 在多任务评估中,STARE在不同任务类型(短链推理、长链推理、多轮工具使用)中均表现优异,平均准确率提升4%-8%,且模型的探索行为持续活跃,反映出其在复杂推理和多轮交互中的适应性和稳定性。
  • 通过消融实验验证,基于惊讶值的Token筛选和目标熵闭环调节机制是实现训练稳定的关键因素。相比传统的熵正则化和优势重加权策略,STARE在保持策略多样性和提升任务性能方面具有明显优势,且对超参数的敏感性较低,表现出良好的鲁棒性。

研究意义

该研究突破了强化学习中策略熵崩溃的根本机制分析,提出了基于Token级惊讶值的优势重调控方案,为大规模语言模型的持续训练提供了新思路。通过理论上的优势-惊讶四象限结构分析,揭示了在训练过程中高熵Token的稀疏性和低熵Token的频繁性之间的动态平衡问题。该方法不仅提升了模型的训练稳定性,还增强了模型在复杂推理任务中的探索能力,推动了RL在大模型中的应用边界。长远来看,STARE为未来强化学习算法的设计提供了理论基础,有望在多模态、多任务、多轮交互等更复杂场景中发挥重要作用。

技术贡献

本文的核心技术贡献在于:首先,首次系统性分析了GRPO训练中的Token级熵动态,揭示了优势-惊讶四象限结构和近临界性特性,为理解策略熵崩溃提供理论依据。其次,提出基于批内惊讶值分位数的Token筛选机制,有效识别熵临界Token子集,结合优势重调节策略,显著缓解熵崩溃问题。此外,设计了目标熵闭环门控机制,实现训练中的自适应稳定调节。最后,结合理论分析和实证验证,证明该机制在多个模型规模和任务场景中均能持续保持策略熵,提升训练效率和任务性能。该方法在强化学习中的优势调节和稳定性保障方面具有创新性和实用价值。

新颖性

这是首个系统性结合Token级惊讶值分析与优势重调节的策略熵稳定方法。不同于传统熵正则化和优势重加权策略,STARE引入了基于惊讶值的Token筛选和目标熵闭环调节机制,提出了优势-惊讶四象限结构的理论框架,揭示了策略熵崩溃的根源。其创新点在于:利用批内惊讶值分位数动态识别熵临界Token,结合优势重调节实现微调控制,避免过度干预,确保训练的连续性和稳定性。这一突破性设计为RL在大规模语言模型中的应用提供了新的理论和工程工具,具有较强的前沿性和创新性。

局限性

  • 尽管STARE在多模型和多任务场景中表现优异,但其依赖于惊讶值的准确估计,可能在极端分布或稀疏奖励环境中效果减弱。此外,调节机制的超参数(如分位数比例、目标熵值)仍需经验调优,可能影响泛化能力。模型训练过程中的计算成本增加,尤其是在大规模模型中,实时筛选熵临界Token和动态调节可能带来额外开销。未来需要研究更高效的筛选策略和自适应调节算法,以实现更广泛的应用推广。
  • 该方法目前主要在文本生成和推理任务中验证,尚未充分探索多模态、多任务、多轮交互等复杂场景的适应性。对极端任务或特殊环境(如低资源或高噪声环境)下的表现仍需深入分析。此外,理论分析假设模型参数和分布稳定,实际训练中可能存在偏差,影响调节效果。未来工作应结合更丰富的理论模型和实际应用场景,完善算法鲁棒性。

未来方向

未来,作者计划将STARE扩展到多模态任务(如视觉问答、视频理解),探索其在多模态信息融合中的熵调节能力。同时,结合强化学习中的自适应调节机制,设计更智能的参数调优策略,以降低超参数敏感性。此外,研究如何在更复杂的交互环境(如多轮对话、协作机器人)中保持策略多样性和探索能力,将是未来的重要方向。还希望结合神经符号和因果推断等技术,增强模型的推理深度和鲁棒性,推动RL在更广泛的应用场景中的落地。

AI 总览摘要

在当前大规模语言模型的训练中,策略熵的稳定性一直是制约模型性能持续提升的关键难题。随着训练步数的增加,模型往往出现策略熵迅速崩溃的现象,导致输出多样性下降、探索能力减弱,甚至影响模型的推理深度和泛化能力。传统的熵正则化和优势重加权方法在一定程度上缓解了这一问题,但缺乏对熵崩溃根本机制的深入理解,也难以实现持续稳定的训练。

本文提出了一种基于惊讶值(surprisal)指导的Token级优势重调节机制——STARE(Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability),旨在解决这一难题。通过对GRPO(Group Relative Policy Optimization)算法的第一阶梯度分析,作者揭示了在训练过程中,优势值在Token层面引发的熵变化呈现出四象限结构:低惊讶值的Token在正优势轨迹中占据主导,推动策略收敛到低熵状态;而高惊讶值Token在稀疏状态下具有潜在的熵提升作用。该分析还发现,微小的Token级别权重扰动即可逆转熵的演变方向,表现出近临界性特征。

基于此,作者设计了STARE机制,利用批内惊讶值分位数动态识别熵临界Token子集,调节其优势权重,增强高惊讶值Token的优势,抑制低惊讶值Token的优势,从而在训练中实现策略熵的平衡。引入目标熵闭环门控机制,确保策略熵始终维持在预设范围内,避免崩溃或过度探索。实验结果显示,在多模型规模(1.5B至32B)和多任务场景(短链推理、长链推理、多轮工具使用)中,STARE显著提升了训练的稳定性,延长了训练周期,避免了策略熵的快速崩溃。

在AIME24和AIME25两个数学竞赛数据集上,STARE分别超越了传统方法和最新基线4%至8%的平均准确率,验证了其在复杂推理任务中的优越性能。模型在训练过程中,反思Token和响应长度同步增长,表明探索-利用的平衡得以持续维护,模型的推理深度和多样性得到增强。理论分析和实证验证结合,证明了惊讶值引导的Token筛选和优势重调节机制在策略稳定性中的核心作用。

总之,STARE为强化学习中的策略熵稳定提供了全新的理论框架和工程方案。它不仅解决了长久以来困扰大模型训练的熵崩溃问题,也为未来多模态、多任务、多轮交互的智能系统设计奠定了基础。未来,作者希望将该机制推广到更复杂的场景中,结合自适应调节和因果推断技术,推动RL在人工智能各领域的深度应用。

深度解读

原文摘要

Reinforcement Learning with Verifiable Rewards algorithms like GRPO have emerged as the dominant post-training paradigm for complex reasoning in LLMs, yet commonly suffer from policy entropy collapse during training. We conduct a first-order gradient analysis of token-level entropy dynamics under GRPO and identify a token-level credit assignment mismatch: the per-token entropy variation decomposes into the product of the trajectory-level advantage and an entropy sensitivity function over the next-token distribution, yielding an advantage-surprisal four-quadrant structure and a near-criticality property. Motivated by it, we propose STARE (Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability), which identifies entropy-critical token subsets via batch-internal surprisal quantiles, selectively reweights their effective advantages, and incorporates a target-entropy closed-loop gate for stable entropy regulation. Across model scales from 1.5B to 32B and three task families (Short CoT, Long CoT, and Multi-Turn Tool Use), STARE sustains stable RL training over thousands of steps while maintaining policy entropy within the target band. On AIME24 and AIME25, STARE outperforms DAPO and other competitive baselines by 4%-8% in average accuracy, with reflection tokens and response length growing in tandem, indicating sustained exploration-exploitation balance that further unlocks RL training potential.Code is available at https://github.com/hp-luo/STARE.

cs.LG cs.AI cs.CL