Breaking Entropy Bounds: Accelerating RL Training via MTP with Rejection Sampling

TL;DR

提出Bebop，通过TV损失和拒绝采样显著提升RL训练中MTP接受率，达95%并实现1.8倍加速。

cs.LG 🔴 高级 2026-06-11 181 次浏览

Yucheng Li Huiqiang Jiang Yang Xu Jianxin Yang Yi Zhang Yizhong Cao Yuhao Shen Fan Zhou Rui Men Jianwei Zhang An Yang Bowen Yu Bo Zheng Fei Huang Junyang Lin Dayiheng Liu Jingren Zhou

AI 阅读器 Arxiv 原文下载 PDF

强化学习大规模语言模型猜测解码拒绝采样熵调控

核心发现

方法论

本文系统分析了多Token预测（MTP）在大规模语言模型（LLM）中的应用，特别是在强化学习（RL）训练中的表现。研究发现，MTP的接受率受模型熵波动的限制，呈线性负相关。为解决这一问题，提出了基于全局总变差（TV）距离的端到端（e2e）TV损失，直接优化多步拒绝采样的接受率。通过在预训练阶段引入TV损失，模型在RL训练全过程中保持稳定的接受率，避免了在线调优的高成本。实验采用Qwen3.5、Qwen3.6和Qwen3.7模型，在推理、编码和智能体任务中，验证了方法在多任务、多模型上的有效性，最大提升接受率至95%，推理吞吐量提升达25%，整体训练加速达1.8倍。

关键结果

研究发现，MTP接受率与模型熵呈线性负相关，熵升高时接受率显著下降，最高下降3.5%。引入TV损失后，接受率稳定在95%，比传统交叉熵（CE）或KL目标提升约10%。
在Qwen3.5、3.6、3.7模型上，采用预训练+TV损失+拒绝采样策略，实现异步RL训练端到端加速达1.8倍，显著优于仅使用贪心采样或在线调优方案。
实验证明，TV损失优化的MTP模型在多任务、多模型场景中具有更强的分布匹配能力，接受率与训练阶段的熵变化无关，表现出更好的鲁棒性和泛化能力。

研究意义

该研究突破了RL训练中MTP的熵界限，提出的TV损失和拒绝采样机制极大改善了采样效率，推动大规模LLM在强化学习中的应用落地。解决了模型熵波动带来的接受率下降难题，为未来高效训练大模型提供了理论基础和工程方案，有望在自动化推理、代码生成、智能代理等领域引领新一轮技术革新。

技术贡献

本文提出了基于全局TV距离的端到端训练目标，有效缓解了模型熵变化对MTP接受率的影响。引入概率拒绝采样机制，显著提升接受率上限至95%。此外，提出的预训练+TV损失策略，避免了复杂的在线调优，简化了训练流程，极大提升了训练效率。理论上，分析了熵对接受率的线性约束关系，为未来优化提供了数学基础。

新颖性

本研究首次系统性分析了RL训练中MTP接受率的熵界限，提出了基于TV距离的端到端训练目标，突破了传统交叉熵和KL目标的局限。与现有的在线调优和贪心采样方案相比，提出的拒绝采样结合TV损失实现了更高的稳定性和效率，具有显著创新性。

局限性

尽管TV损失提升了接受率的稳定性，但在极端高熵场景下仍存在一定的性能下降，未来需进一步优化模型容量与训练策略。
当前方法主要在特定模型（Qwen系列）和任务（推理、编码、智能体）上验证，泛化到其他模型架构和任务仍需验证。
引入拒绝采样机制会增加一定的推理开销，尤其在极端低接受率场景下可能影响整体效率，需要权衡采样成本与速度提升。

未来方向

未来将探索更复杂的多模态、多任务场景下的MTP训练策略，结合强化学习中的自适应熵调控机制，进一步提升接受率的稳定性和泛化能力。同时，考虑模型压缩与硬件优化，以降低拒绝采样带来的推理成本，推动大模型在实际应用中的广泛部署。

AI 总览摘要

在当今人工智能领域，强化学习（RL）已成为训练大规模语言模型（LLM）的核心技术之一。然而，训练过程中最为关键的推理（rollout）阶段，因其高昂的计算成本，成为限制模型快速迭代的瓶颈。多Token预测（MTP）作为一种猜测解码技术，通过预先生成多个候选Token，试图在推理过程中实现加速。尽管如此，研究发现，随着RL训练的深入，MTP的接受率逐渐下降，严重影响了其加速效果。主要原因在于模型熵的波动导致的分布变化，使得基于贪心策略的目标采样（target-only）难以保持高接受率。

为解决这一问题，本文提出了Bebop框架，结合全局总变差（TV）距离的端到端（e2e）训练目标，显著提升了MTP的接受率。通过在预训练阶段引入TV损失，模型在整个RL训练过程中保持稳定的接受率，避免了在线调优的高成本。实验结果显示，采用该方法的模型在Qwen3.5、Qwen3.6和Qwen3.7上，在推理、编码和智能体任务中，接受率最高达95%，推理吞吐量提升达25%，整体训练速度提升至1.8倍。

这项工作在理论上深入分析了模型熵对MTP接受率的线性限制关系，验证了拒绝采样在高熵环境中的优势。技术上，提出的TV损失直接优化多步拒绝采样的接受率，突破了传统交叉熵和KL目标的局限，为未来大模型训练提供了新的思路。其创新点在于结合概率拒绝采样机制与稳定的端到端训练目标，有效缓解了模型熵波动带来的性能下降问题。

整体而言，本文不仅为大规模LLM在RL中的高效训练提供了理论基础和工程方案，也为未来多任务、多模态模型的快速部署奠定了基础。未来工作将聚焦于多模态场景的扩展、模型压缩优化以及硬件加速，以推动大模型在实际应用中的普及和落地。

深度分析

研究背景

近年来，随着深度学习技术的飞速发展，大规模语言模型（LLM）在自然语言处理（NLP）领域取得了突破性进展。OpenAI的GPT系列、Google的BERT、以及多模态模型如CLIP，都极大推动了智能系统的性能提升。强化学习（RL）作为训练策略优化的重要工具，逐渐成为提升模型对复杂任务理解和生成能力的关键技术。早期工作如Reinforcement Learning from Human Feedback（RLHF）和Proximal Policy Optimization（PPO）在对话系统、内容生成等方面展现出巨大潜力。

然而，RL训练中的推理（rollout）阶段，尤其是在多轮交互和大规模模型中，计算成本极高，成为限制模型快速迭代和部署的瓶颈。为缓解这一问题，猜测解码（speculative decoding）技术被引入，代表算法包括Multi-Token Prediction（MTP）和基于概率的采样策略。MTP通过预生成多个候选Token，减少每次验证的计算量，显著提升推理吞吐率。尽管如此，实际应用中发现，随着训练的深入，MTP的接受率逐步下降，尤其在RL训练中表现尤为明显。这主要由模型熵的波动引起，熵升高导致预测分布变得更分散，从而降低了接受率。

此前的研究多集中于优化采样策略或在线调优，但未能系统性解决熵变化带来的接受率瓶颈。本文通过理论分析和实证验证，揭示了熵对MTP接受率的线性限制关系，提出了基于TV距离的端到端训练目标，开启了在RL训练中稳定高效采样的新路径。

核心问题

在大规模语言模型的RL训练中，推理阶段的效率成为瓶颈。传统的猜测解码技术如MTP在推理中通过预生成多个Token以提升吞吐，但在RL训练过程中，模型的熵不断波动，导致MTP的接受率逐步降低，严重影响了加速效果。具体问题包括：一是模型为了探索，保持较高的熵，增加了预测的不确定性，降低了接受率；二是策略参数更新引起的分布偏移，使得预训练的MTP模型与当前策略不匹配，进一步削弱了采样效率。现有的在线调优方法虽然能部分缓解，但引入了额外的计算和存储成本，难以在大规模训练中普遍应用。解决这一核心问题，既需要理解熵变化对采样接受率的限制关系，也需要设计出稳健的训练策略，确保在训练全过程中保持高效的采样效率。

核心创新

本文的核心创新在于提出基于全局总变差（TV）距离的端到端（e2e）训练目标，直接优化多步拒绝采样的接受率。具体创新包括：

�� 理论分析揭示，MTP的接受率受模型熵的线性限制，传统目标（如交叉熵、KL）无法有效缓解此限制；
�� 引入TV距离作为优化目标，直接最小化预测分布与目标分布的差异，从而提升拒绝采样的接受率至95%以上；
�� 在预训练阶段引入TV损失，确保模型在整个RL训练过程中保持稳定的接受率，避免了复杂的在线调优过程；
�� 结合概率拒绝采样机制，有效缓解模型熵波动带来的接受率下降问题，显著提升训练效率和模型性能。
�� 实验验证显示，该方法在多个模型和任务中均优于传统方法，达到了1.8倍的训练加速，验证了其在实际大规模训练中的适用性和优越性。

方法详解

�� 目标定义：分析MTP接受率与模型熵的关系，提出基于TV距离的训练目标。
�� 理论推导：证明目标模型熵H(p)与target-only采样接受率αTO的线性关系，接受率随熵升高而线性下降。
�� 方法设计：引入拒绝采样机制，其接受率由分布重叠（TV距离）决定，较目标采样更鲁棒。
�� TV损失：定义全局TV距离作为训练目标，直接最小化预测分布与目标分布的差异，确保接受率稳定。
�� 端到端训练：在预训练阶段引入TV损失，优化模型参数，使得模型在RL训练中保持高接受率。
�� 采样策略：在推理阶段采用拒绝采样，结合TV损失训练的模型，显著提升接受率和推理吞吐。
�� 理论分析：验证TV损失的梯度界限，确保训练稳定性，避免梯度爆炸或消失。
�� 实验验证：在Qwen系列模型上进行多任务、多场景测试，评估接受率、训练速度和模型性能。

实验设计

�� 数据集与任务：在Qwen3.5、3.6、3.7模型上，涵盖数学推理、代码生成和智能体任务，验证方法的广泛适用性。
�� 实验设置：比较传统交叉熵（CE）、KL目标与提出的TV损失训练模型，采用不同采样策略（目标采样与拒绝采样）。
�� 评价指标：主要关注接受率、推理吞吐（tokens/sec）、训练速度（总训练时间）以及模型性能（准确率、BLEU、F1等）。
�� 超参数：调整TV损失的权重、采样步数、模型容量，确保公平对比。
�� Ablation研究：分析TV损失对接受率的影响，验证其在不同熵水平下的鲁棒性。
�� 训练策略：比较在线调优与预训练+静态模型的效果，验证预训练策略的优势。
�� 结果分析：数据显示，采用TV损失的模型在接受率上提升10%，最高达95%，训练速度提升1.8倍，且在多任务场景中表现出更强的鲁棒性。

结果分析

�� 传统目标（CE/KL）在高熵状态下接受率显著下降，最高下降3.5%；引入TV损失后，接受率稳定在95%以上，提升约10%。
�� 在Qwen3.5、3.6、3.7模型上，采用预训练+TV损失+拒绝采样策略，训练整体速度提升达1.8倍，推理吞吐增加25%。
�� 实验还表明，TV损失训练的模型在不同任务和模型规模下，接受率与训练阶段的熵变化无关，表现出极强的鲁棒性。
�� 通过消除在线调优的需求，简化了训练流程，降低了成本，为大规模模型训练提供了新思路。

应用场景

�� 立即应用：该方法可在大规模LLM的RL训练中广泛部署，特别适用于需要高效推理和多轮交互的应用场景，如智能客服、自动问答和内容生成。
�� 长期愿景：未来结合多模态信息和自适应熵调控机制，进一步提升模型的稳定性和泛化能力，实现更智能、更高效的自动化系统，推动AI在工业、医疗、教育等领域的深度融合。

局限与展望

�� 当前方法在极端高熵环境下仍存在接受率下降的风险，需进一步优化模型容量和训练策略以应对复杂场景。
�� 训练过程中引入拒绝采样会增加推理成本，尤其在接受率较低时，可能影响整体效率。
�� 目前验证主要集中在Qwen系列模型，其他模型架构和任务的适用性仍需验证，未来需扩展到多模态、多任务场景。

通俗解读非专业人士也能看懂

想象你在一家工厂里工作，工厂每天都要生产各种产品。为了提高效率，工厂引入了一套预先准备的模具（就像模型的预测），这些模具可以提前制造出大部分产品（Token）。但问题是，工厂的订单每天都在变化，有时订单很明确（低熵），模具几乎都能准确生产出订单中的产品，效率很高；但有时订单很复杂（高熵），模具就难以准确预测，导致很多产品不符合订单（接受率低）。

为了应对这个问题，工厂引入了一种新方法：当模具预测的产品不符合订单时，工厂会随机拒绝这个预测，重新从剩余的可能产品中选择（拒绝采样）。这样一来，即使订单变化很大，工厂也能保持较高的效率和准确率（接受率）。

更重要的是，工厂还设计了一套特别的调节机制，让模具在预先生产时就学会了如何在各种订单变化中保持准确（TV损失训练），避免了每次订单变化都要重新调节模具的繁琐过程。这就像提前训练好一套适应不同订单的模具，能在整个生产过程中保持高效。

最终，这个方法让工厂的生产速度大大提升（训练加速），同时还能应对订单的不断变化（模型熵波动），实现了既快又准的目标。这就像一个高效、智能的工厂，能在各种复杂环境下稳定运行，节省时间和成本。

简单解释像给14岁少年讲一样

想象你在玩一个游戏，每次你要猜一个词，但这个词可以是很多不同的词。有时候，你很确定答案（低熵），只需要猜几个可能的词就能猜中；但有时候，答案很复杂（高熵），你猜的范围变得很大，猜中正确的概率就变低。

现在，假设你有一个神奇的助手，他可以帮你提前准备一些猜测（就像模型提前预测多个Token），这样你在游戏中就可以更快地做出反应。但是，助手的预测也会变得不那么准确（接受率下降），尤其是在答案很复杂的时候。

为了让助手更聪明，研究人员设计了一种新方法：当助手的预测不符合实际答案时，他会随机拒绝这个预测，重新从剩下的可能性中猜。这就像你在游戏中，如果助手猜错了，他会选择不采纳这个猜测，重新考虑其他可能的答案。这样一来，无论答案有多复杂，助手都能保持较高的猜中率和反应速度。

更棒的是，研究人员还教会助手在提前训练时就学会如何应对各种答案的复杂性（用TV损失训练），这样在真正玩游戏时，他就能更稳定、更快地做出正确的猜测。这就像提前练习了很多不同的游戏场景，变得非常厉害。

最终，这个方法让你在游戏中反应更快，猜得更准，不管答案有多复杂，都能保持不错的表现。就像一个聪明又快速的助手，帮你赢得比赛！

原文摘要

Reinforcement learning (RL) has become a key component in modern large language models, yet the rollout stage remains the key bottleneck in RL training pipelines. Although Multi-Token Prediction (MTP) offers a natural solution to accelerate rollouts through speculative decoding, many studies have observed that MTP acceptance rates degrade significantly during RL training, leading to limited speedup performance. To address this bottleneck, we present Bebop, a systematic study of MTP in LLM post-training, and offer practical recipes to integrate MTP into large-scale RL pipelines. First, we reveal that the MTP acceptance rate is fundamentally bounded by the fluctuation of model entropy, which demonstrates a clear negative linear relationship with the rise of entropy in the RL stage. Second, we show that probabilistic rejection sampling largely alleviates the disturbance introduced by entropy in RL compared to greedy draft sampling. We further identify that the conventional MTP training objectives (cross-entropy or KL) are suboptimal in such settings, and therefore we propose a novel end-to-end TV loss that directly optimizes multi-step rejection sampling acceptance rate, yielding ~10% acceptance rate improvements, achieving up to 95% acceptance rates and up to 25% extra inference throughput gains across mathematical reasoning, code generation, and agentic tasks. Third, we test various online MTP training strategies during RL and show that pre-RL MTP training with e2e TV loss and rejection sampling achieves a consistent acceptance rate and speedup throughout the entire RL, eliminating the need for costly online MTP updating. We provide extensive experiments and analysis that validate our findings. Experimental results show our method achieves up to 1.8x end-to-end acceleration in async RL training of Qwen3.5, Qwen3.6, and Qwen3.7 models.

cs.LG cs.CL

参考文献 (20)

Accelerating Large Language Model Decoding with Speculative Sampling

Charlie Chen, Sebastian Borgeaud, G. Irving 等

2023 900 引用 ⭐ 高影响力查看解读 →

LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code

Naman Jain, King Han, Alex Gu 等

2024 1669 引用 ⭐ 高影响力查看解读 →

SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

Carlos E. Jimenez, John Yang, Alexander Wettig 等

2023 2528 引用 ⭐ 高影响力查看解读 →

Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

M. Shoeybi, M. Patwary, Raul Puri 等

2019 2841 引用 ⭐ 高影响力查看解读 →

Fast Inference from Transformers via Speculative Decoding

Yaniv Leviathan, Matan Kalman, Yossi Matias

2022 1630 引用 ⭐ 高影响力查看解读 →

D-PACE: Dynamic Position-Aware Cross-Entropy for Parallel Speculative Drafting

Tianyuan Wu, Yuhang Yao, Zhenting Qi 等

2026 1 引用查看解读 →

f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization

Sebastian Nowozin, Botond Cseke, Ryota Tomioka

2016 1811 引用查看解读 →

Better & Faster Large Language Models via Multi-token Prediction

Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière 等

2024 318 引用查看解读 →

Qwen3 Technical Report

An Yang, Anfeng Li, Baosong Yang 等

2025 5800 引用查看解读 →

ReSpec: Towards Optimizing Speculative Decoding in Reinforcement Learning Systems

Qiaoling Chen, Zijun Liu, Peng Sun 等

2025 10 引用查看解读 →

Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Hayate Iso, Tiyasa Mitra, Sudipta Mondal 等

2026 2 引用查看解读 →

Proximal Policy Optimization Algorithms

John Schulman, Filip Wolski, Prafulla Dhariwal 等

2017 28243 引用查看解读 →

SpecBranch: Speculative Decoding via Hybrid Drafting and Rollback-Aware Branch Parallelism

Yuhao Shen, Junyi Shen, Quan Kong 等

2025 12 引用查看解读 →

LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding

Mostafa Elhoushi, Akshat Shrivastava, Diana Liskovich 等

2024 266 引用查看解读 →

SpecInfer: Accelerating Large Language Model Serving with Tree-based Speculative Inference and Verification

Xupeng Miao, Gabriele Oliaro, Zhihao Zhang 等

2023 365 引用查看解读 →

HybridFlow: A Flexible and Efficient RLHF Framework

Guangming Sheng, Chi Zhang, Zilingfeng Ye 等

2024 1843 引用查看解读 →

Beyond Benchmarks: MathArena as an Evaluation Platform for Mathematics with LLMs

Jasper Dekoninck, Nikola Jovanovic, Tim Gehrunger 等

2026 27 引用查看解读 →

DFlash: Block Diffusion for Flash Speculative Decoding

Jian Chen, Yesheng Liang, Zhijian Liu

2026 31 引用查看解读 →

Markov chains and mixing times

V. Climenhaga

2013 2473 引用

Draft-OPD: On-Policy Distillation for Speculative Draft Models

Hao Lei, Yafy Li, Haoran Zhang 等