Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

TL;DR

提出一种稀疏到密集奖励原则，结合GRPO和OPD，提升语言模型后训练性能。

cs.LG 🔴 高级 2026-05-13 205 次浏览

Yuanda Xu Hejian Sang Zhengze Zhou Ran He Zhipeng Wang Alborz Geramifard

语言模型稀疏奖励密集奖励后训练模型蒸馏

核心发现

方法论

本研究提出了一种新的稀疏到密集奖励分配原则，结合了GRPO和OPD的优点。通过在教师模型上应用稀疏奖励以发现奖励形态行为，然后通过密集监督将该行为传递给学生模型。具体来说，采用了前向KL预热和OPD的两阶段桥接方法，以实现最佳的模型训练效果。

关键结果

在Qwen3-1.7B模型上，经过RL改进的8B教师模型通过密集桥接后在MATH数据集上表现优于直接GRPO（79.3%对75.9%），在AIME 2024上得分为25.2，而直接GRPO仅为19.8。
在Llama模型上，RL改进的70B教师模型在8B学生模型上的转移表现优于直接GRPO（62.1%对59.8%）。
在学生模型上应用稀疏奖励后，MATH数据集的表现从75.4%提升至78.5%，超过了匹配的重放控制2.8个百分点。

研究意义

本研究通过提出稀疏到密集奖励原则，在语言模型后训练中实现了更高效的数据利用。通过将稀疏奖励应用于教师模型以发现奖励形态行为，然后通过密集监督将该行为传递给学生模型，显著提高了模型的训练效果。这一方法不仅在学术界具有重要意义，也为工业界提供了一种更高效的模型训练策略。

技术贡献

技术贡献包括提出了一种新的奖励密度分配原则，结合了稀疏奖励和密集监督的优点。通过前向KL预热和OPD的两阶段桥接方法，实现了更高效的模型训练。此外，本研究还验证了在不同模型和数据集上的有效性，展示了该方法的广泛适用性。

新颖性

本研究首次提出了稀疏到密集奖励的分配原则，结合了GRPO和OPD的优点。与现有方法相比，该方法通过在教师模型上应用稀疏奖励以发现奖励形态行为，然后通过密集监督将该行为传递给学生模型，实现了更高效的数据利用和模型训练。

局限性

该方法在较小的模型规模上进行了验证（1.7B和8B学生，教师最大到14B和70B），在更大规模模型上的表现尚未验证。
桥接方法需要教师和学生之间共享词汇表，这可能限制了其在不同模型之间的应用。
该方法在开放式任务和指令跟随任务中的表现尚未验证。

未来方向

未来工作可以包括在更大规模的模型上验证该方法的有效性，以及在开放式任务和指令跟随任务中的应用。此外，还可以探索不同的奖励密度分配策略，以进一步提高模型的训练效果。

AI 总览摘要

在语言模型的后训练过程中，如何有效利用有限的标注数据一直是一个挑战。传统的方法通常直接在部署模型上应用稀疏奖励（如GRPO），但这种方法在数据利用上并不高效。本文提出了一种新的稀疏到密集奖励原则，结合了GRPO和OPD的优点，通过在教师模型上应用稀疏奖励以发现奖励形态行为，然后通过密集监督将该行为传递给学生模型。

具体来说，本文采用了前向KL预热和OPD的两阶段桥接方法，以实现最佳的模型训练效果。在Qwen3和Llama模型上的实验表明，经过RL改进的教师模型通过密集桥接后在MATH数据集上的表现优于直接GRPO。这一结果表明，稀疏到密集奖励的分配原则能够显著提高模型的训练效果。

该方法的核心技术原理在于通过稀疏奖励在教师模型上发现奖励形态行为，然后通过密集监督将该行为传递给学生模型。这一过程包括前向KL预热和OPD的两阶段桥接，以确保学生模型能够有效地学习到奖励形态行为。

实验结果显示，在Qwen3-1.7B模型上，经过RL改进的8B教师模型通过密集桥接后在MATH数据集上表现优于直接GRPO（79.3%对75.9%），在AIME 2024上得分为25.2，而直接GRPO仅为19.8。这一结果表明，稀疏到密集奖励的分配原则能够显著提高模型的训练效果。

这一研究不仅在学术界具有重要意义，也为工业界提供了一种更高效的模型训练策略。然而，该方法在较大规模模型上的表现尚未验证，未来工作可以包括在更大规模的模型上验证该方法的有效性，以及在开放式任务和指令跟随任务中的应用。

深度分析

研究背景

近年来，语言模型的后训练成为提高模型性能的关键步骤。传统方法如GRPO和OPD在数据利用上存在一定的局限性。GRPO通过稀疏奖励信号指导模型学习，但在数据利用效率上不高。OPD则通过密集的教师监督来压缩行为，但在模型探索上存在不足。为了克服这些限制，本文提出了一种新的稀疏到密集奖励分配原则，结合了GRPO和OPD的优点。

核心问题

在语言模型的后训练过程中，如何有效利用有限的标注数据是一个核心问题。传统方法通常直接在部署模型上应用稀疏奖励，但这种方法在数据利用上并不高效。稀疏奖励信号虽然无偏，但只有在策略已经足够好时才能有效学习。密集的教师奖励则提供了每个token的信号，但偏向于教师模型。

核心创新

本文提出了一种新的稀疏到密集奖励分配原则，结合了GRPO和OPD的优点。通过在教师模型上应用稀疏奖励以发现奖励形态行为，然后通过密集监督将该行为传递给学生模型。具体来说，采用了前向KL预热和OPD的两阶段桥接方法，以实现最佳的模型训练效果。这一方法不仅提高了数据利用效率，还在不同模型和数据集上验证了其有效性。

方法详解

�� 在教师模型上应用稀疏奖励以发现奖励形态行为。
�� 通过前向KL预热，调整学生模型的支持。
�� 使用OPD在学生模型上进行密集监督。
�� 在学生模型上应用稀疏奖励以进一步提升性能。
�� 在Qwen3和Llama模型上进行实验验证。

实验设计

实验设计包括在Qwen3和Llama模型上进行验证。使用的数据集包括DAPO-Math-17K。实验中比较了直接GRPO、稀疏到密集奖励分配原则以及不同教师模型的表现。关键的超参数包括模型规模、奖励信号的密度和桥接方法的步骤。

结果分析

实验结果显示，经过RL改进的教师模型通过密集桥接后在MATH数据集上的表现优于直接GRPO。在Qwen3-1.7B模型上，8B教师模型的表现为79.3%，而直接GRPO仅为75.9%。在Llama模型上，RL改进的70B教师模型在8B学生模型上的转移表现优于直接GRPO（62.1%对59.8%）。

应用场景

该方法可直接应用于需要高效利用有限标注数据的语言模型后训练场景。适用于需要在有限计算资源下提高模型性能的工业应用，如智能助手、对话系统等。

局限与展望

该方法在较小的模型规模上进行了验证，尚未在更大规模模型上验证其有效性。此外，桥接方法需要教师和学生之间共享词汇表，这可能限制了其在不同模型之间的应用。未来工作可以包括在更大规模的模型上验证该方法的有效性，以及在开放式任务和指令跟随任务中的应用。

通俗解读非专业人士也能看懂

想象一下，你在厨房里做饭。传统的做法是，你有一个大厨（教师模型），他会告诉你每一步该怎么做（密集奖励）。但是，有时候大厨也不知道每一步该怎么做，只能告诉你一个大概的方向（稀疏奖励）。这就像你在做一道新菜，大厨只能告诉你最后的味道应该是什么样的，而不是每一步的具体操作。

现在，假设你有一个助手（学生模型），他需要学会这道菜。你可以让大厨先尝试做这道菜，记录下每一步的操作，然后再让助手学习这些操作。这就是稀疏到密集奖励的原则：先让大厨通过稀疏奖励探索出一个大概的方向，然后通过密集奖励把这个方向传递给助手。

这样一来，助手就能更快地学会这道菜，因为他不仅知道最后的味道应该是什么样的，还知道每一步该怎么做。这种方法不仅提高了学习效率，还能在有限的时间和资源下取得更好的效果。

所以，这个方法的核心在于如何有效地利用有限的信息，让助手在最短的时间内学会做出美味的菜肴。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在玩一个超级复杂的游戏，你需要通过解谜来获得奖励。通常情况下，你可能会得到一些提示，比如“去找那棵树后面的宝藏”。这就像我们在训练AI模型时给它的稀疏奖励：只有在它做对了某件事后才会得到奖励。

但是，有时候我们希望能给AI更多的指导，就像游戏中有个NPC一直在旁边告诉你每一步该怎么做。这就是密集奖励：每一步都有反馈，让AI知道它做得对不对。

现在，科学家们想出了一个聪明的方法，把这两种奖励结合起来。首先，他们让AI通过稀疏奖励去探索，找到一些有用的线索。然后，他们用密集奖励来帮助AI更好地理解这些线索。

这样一来，AI就能更快地学会如何解谜，就像你在游戏中既有大方向的提示，又有每一步的指导。这种方法让AI变得更聪明，也能更快地完成任务！

术语表

GRPO (广义策略优化)

一种用于强化学习的算法，旨在通过稀疏奖励信号优化策略。通常用于需要长时间探索的任务。

在本文中用于直接在学生模型上应用稀疏奖励。

OPD (在线策略蒸馏)

一种通过密集奖励信号进行模型蒸馏的方法，通常用于将大模型的行为压缩到小模型中。

在本文中用于通过密集监督将教师模型的行为传递给学生模型。

稀疏奖励

一种奖励信号，只有在完成某个序列任务后才会提供反馈。适用于需要长时间探索的任务。

用于在教师模型上发现奖励形态行为。

密集奖励

一种奖励信号，在每个步骤都会提供反馈。适用于需要精细控制的任务。

用于在学生模型上进行密集监督。

前向KL预热

一种在教师模型上进行的初始化步骤，旨在调整学生模型的支持以适应密集监督。

在本文中用于桥接过程的第一阶段。

两阶段桥接

一种结合前向KL预热和OPD的方法，用于在教师模型和学生模型之间传递奖励形态行为。

在本文中用于实现最佳的模型训练效果。

Qwen3模型

一种用于验证本文方法的语言模型，具有不同的规模（1.7B、8B、14B）。

在实验中用于测试稀疏到密集奖励原则的有效性。

Llama模型

另一种用于验证本文方法的语言模型，具有不同的规模（8B、70B）。

在实验中用于测试教师质量排序的有效性。

DAPO-Math-17K

一种用于验证本文方法的数学数据集，包含17,000个可验证的数学问题。

在实验中用于测试不同模型和方法的表现。

AIME

美国数学竞赛之一，用于测试模型在数学问题上的表现。

在实验中用于评估不同模型的数学能力。

开放问题这项研究留下的未解疑问

1 如何在更大规模的模型上验证稀疏到密集奖励原则的有效性？目前的实验仅在较小规模的模型上进行，尚未在更大规模的模型上验证其有效性。
2 在开放式任务和指令跟随任务中，该方法的表现如何？目前的实验主要集中在数学问题上，尚未在其他类型的任务中进行验证。
3 如何在不同模型之间共享词汇表，以实现更广泛的桥接应用？目前的方法需要教师和学生之间共享词汇表，这可能限制了其在不同模型之间的应用。
4 是否存在其他更高效的奖励密度分配策略？目前的方法主要基于稀疏到密集奖励的分配原则，未来可以探索其他可能的策略。
5 如何在不影响模型性能的情况下减少计算成本？目前的方法在计算成本上可能较高，未来可以探索更高效的计算策略。

应用场景

近期应用

智能助手

通过稀疏到密集奖励原则，提高智能助手在有限数据下的学习效率和性能，提供更准确和个性化的服务。

对话系统

在对话系统中应用该方法，提高系统在复杂对话场景下的响应能力和准确性，增强用户体验。

教育技术

在教育技术中应用该方法，提高AI在个性化学习和自动化评估中的表现，为学生提供更有效的学习支持。

远期愿景

跨领域AI应用

通过该方法的推广，实现AI在不同领域的广泛应用，提高各行业的智能化水平和效率。

通用人工智能

通过不断优化奖励密度分配策略，推动通用人工智能的发展，实现更高水平的智能化和自动化。

原文摘要

In settings where labeled verifiable training data is the binding constraint, each checked example should be allocated carefully. The standard practice is to use this data directly on the model that will be deployed, for example by running GRPO on the deployment student. We argue that this is often an inefficient allocation because it overlooks a reward-density principle: sparse sequence-level reward should train models where exploration is productive, while dense token-level teacher reward should be used where the aim is to compress behavior into a smaller model. In this view, GRPO-style sparse RL and OPD-style dense teacher supervision are not separate recipes; they are different reward-density regimes. The allocation rule is simple: use scarce labeled training data upstream on the strongest model that can turn it into reward-shaped behavior, then transfer that behavior downstream as dense supervision. We evaluate this rule on verifiable math with Qwen3 and Llama models. At fixed Qwen3-1.7B deployment-student size, an RL-improved 8B teacher distilled through the dense bridge outperforms direct GRPO on the same student, while transfer from the same teacher before RL underperforms. The bridge is important: a forward-KL warmup on teacher rollouts followed by OPD on student rollouts is consistently strongest on MATH before any post-bridge student-side sparse RL, and also gives the best pre-Stage~3 AIME endpoints for the canonical 8B/14B teachers. The bridge also makes later student-side sparse RL effective: GRPO that is weak on a cold student lifts MATH from $75.4\%$ to $78.5\%$ after the bridge and outperforms a matched replay control by $2.8$ points. The operational principal is to avoid using scarce labeled data on the least prepared policy: use sparse reward for teacher-side discovery, dense transfer for student compression, and student-side sparse reward only after the bridge.

cs.LG cs.AI

参考文献 (20)

On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

Rishabh Agarwal, Nino Vieillard, Yongchao Zhou 等

2023 330 引用 ⭐ 高影响力查看解读 →

DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning

DeepSeek-AI, Daya Guo, Dejian Yang 等

2025 5420 引用 ⭐ 高影响力查看解读 →

Self-Distillation Enables Continual Learning

Idan Shenfeld, Mehul Damani, Jonas Hübotter 等

2026 55 引用 ⭐ 高影响力查看解读 →

TIP: Token Importance in On-Policy Distillation

Yuan Xu, Hejian Sang, Zhengze Zhou 等

2026 5 引用查看解读 →

Black-Box On-Policy Distillation of Large Language Models

Tianzhu Ye, Li Dong, Zewen Chi 等

2025 18 引用查看解读 →

Qwen3 Technical Report

An Yang, Anfeng Li, Baosong Yang 等

2025 4851 引用查看解读 →

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Qiying Yu, Zheng Zhang, Ruofei Zhu 等

2025 1709 引用查看解读 →

Learn Hard Problems During RL with Reference Guided Fine-tuning

Yangzhen Wu, Shanda Li, Zixin Wen 等

2026 1 引用查看解读 →

HybridFlow: A Flexible and Efficient RLHF Framework

Guangming Sheng, Chi Zhang, Zilingfeng Ye 等

2024 1584 引用查看解读 →

Specializing Smaller Language Models towards Multi-Step Reasoning

Yao Fu, Hao-Chun Peng, Litu Ou 等

2023 348 引用查看解读 →

Proximal Policy Optimization Algorithms

John Schulman, Filip Wolski, Prafulla Dhariwal 等

2017 27274 引用查看解读 →

Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Yi He, Simran Kaur, Adithya Bhaskar 等

2026 5 引用查看解读 →

ORBIT: On-policy Exploration-Exploitation for Controllable Multi-Budget Reasoning

Kun Liang, Clive Bai, Xin Xu 等

2026 3 引用查看解读 →

Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes

Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh 等

2023 875 引用查看解读 →

Beyond Correctness: Learning Robust Reasoning via Transfer

Hyunseok Lee, Soheil Abbasloo, Jihoon Tack 等

2026 1 引用查看解读 →

Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

An Yang, Beichen Zhang, Binyuan Hui 等

2024 897 引用查看解读 →

TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents

Jiaqi Wang, Wenhao Zhang, Weijie Shi 等

2026 3 引用查看解读 →

On-Policy Context Distillation for Language Models

Tianzhu Ye, Li Dong, Xun Wu 等

2026 29 引用查看解读 →

DDK: Distilling Domain Knowledge for Efficient Large Language Models

Jiaheng Liu, Chenchen Zhang, Jinyang Guo 等

2024 39 引用查看解读 →

PACED: Distillation and On-Policy Self-Distillation at the Frontier of Student Competence

Yuan Xu, Hejian Sang, Zhengze Zhou 等

2026 4 引用查看解读 →

Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

GRPO (广义策略优化)

OPD (在线策略蒸馏)

稀疏奖励

密集奖励

前向KL预热

两阶段桥接

Qwen3模型

Llama模型

DAPO-Math-17K

AIME

开放问题 这项研究留下的未解疑问

应用场景

近期应用

智能助手

对话系统

教育技术

远期愿景

跨领域AI应用

通用人工智能

原文摘要

参考文献 (20)

相关论文

Execution-State Capsules: Graph-Bound Execution-State Checkpoint and Restore for Low-Latency, Small-Batch, On-Device Physical-AI Serving

On the Oracle Complexity of Interpolation-Based Gradient Descent

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

Zero-Shot Active Feature Acquisition via LLM-Elicitation

Looped World Models

Kolmogorov Regression for Robust Diffusion Policies

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问