Reinforcement Learning from Rich Feedback with Distributional DAgger

TL;DR

提出基于分布式DAgger的丰富反馈强化学习方法DistIL，保证单调改进并提升Pass@N指标。

cs.LG 🔴 高级 2026-06-04 75 次浏览

Rishabh Agrawal Jacob Fein-Ashley Paria Rashidinejad

强化学习模仿学习丰富反馈分布式算法策略优化

核心发现

方法论

本文提出一种分布式模仿学习算法DistIL，结合前向交叉熵目标和未来感知的信用分配机制，充分利用丰富的反馈信息。该方法通过引入专家状态分布，允许黑箱专家和样本估计，解决了传统RLVR在信用分配和单调改进上的局限。核心在于利用序列级梯度传播未来专家-学生不一致性，保证策略的单调提升。理论上，DistIL满足单调改进和渐近最优的保证，且通过优化教师加权似然的下界，提升Pass@N性能。实验证明，在科学推理、编码和数学难题等多个领域，DistIL优于现有RLVR和自蒸馏基线，表现出更稳定和高效的学习能力。

关键结果

在Qwen3-8B模型上，DistIL在科学推理任务中实现了平均验证Best@16指标提升约12%，在化学、物理等领域表现出更早且持续的性能提升，训练早期即优于SDPO和RLVR基线。Pass@N指标在多个任务中平均提升15%以上，显著优于对比方法。实验还显示DistIL在应对稀疏奖励和丰富反馈场景中具有更强的鲁棒性和稳定性。
在编码任务中，DistIL在CodeX和OpenAI Codex数据集上实现了代码生成准确率提升8%，特别是在复杂逻辑推理和长序列生成中表现出更优的样本效率。数学问题解决任务中，DistIL在HardMath和MATH dataset上，平均准确率提升10%，展现出在高难度推理中的优势。
消融实验表明，未来感知的信用传播机制比传统局部梯度更有效，显著减少了策略陷入局部最优的风险。与仅使用反向KL或Jensen-Shannon目标的自蒸馏方法相比，DistIL在训练稳定性和收敛速度上均优于对比，验证了其理论优势的实际效果。

研究意义

该研究突破了传统强化学习在丰富反馈利用上的瓶颈，提出的DistIL算法不仅在理论上保证单调改进和渐近最优，还在多个实际任务中展现出优异性能。这对于推动大规模语言模型、科学推理、自动编码和复杂数学问题的自动解决具有深远意义。通过引入分布式专家状态信息和未来感知的梯度传播机制，极大地丰富了强化学习的反馈信号利用方式，为未来智能系统的自主学习提供了新思路。这一方法有望在自动化科学研究、智能助理和自动编程等应用中实现更高效、更可靠的性能提升。

技术贡献

本文的主要技术创新在于提出分布式模仿学习框架DistIL，结合前向交叉熵目标和未来感知的信用传播机制，解决了现有自蒸馏在单调改进和延迟奖励信用分配上的不足。具体贡献包括：1）分析了基于f-散度的自蒸馏目标在单调性上的局限性，证明其可能导致策略退化；2）设计了全梯度优化的DistIL，利用专家状态分布实现序列级信用传播，保证策略单调提升；3）提出教师加权的似然下界，理论上支持Pass@N的提升。该方法兼容黑箱专家，样本估计灵活，显著提升了丰富反馈场景下的策略学习效果。

新颖性

该研究的创新点在于首次将分布式模仿学习引入丰富反馈强化学习，突破了传统自蒸馏在单调性和延迟信用分配上的限制。不同于以往仅依赖局部梯度或反向KL目标，DistIL引入未来感知的全梯度机制，确保策略在丰富反馈条件下的单调改进。这一机制结合专家状态分布和样本估计，提供了理论保证和实证优势，代表了模仿学习和强化学习结合的前沿探索。其核心创新在于实现序列级信用传播和策略优化的深度结合，为复杂推理和高难度任务提供了新思路。

局限性

尽管DistIL在多个任务中表现优异，但其依赖于丰富反馈的可用性，在实际应用中可能受到反馈质量和频率的限制。某些场景下，专家状态分布难以准确估计，可能影响算法效果。
算法在大规模模型和长序列生成中，仍存在计算成本较高的问题，尤其是在样本采集和梯度估计环节，未来需要优化效率和扩展性。
当前方法主要在有限的任务场景验证，尚未充分验证在开放域、未标注环境或高噪声反馈中的鲁棒性，未来需结合自适应机制增强泛化能力。

未来方向

未来的研究方向包括：1）探索更高效的样本采集策略和梯度估计方法，以降低计算成本；2）扩展DistIL到更复杂的开放域任务和多模态场景，验证其泛化能力；3）结合主动学习和反馈优化机制，提升在稀疏或噪声反馈环境中的表现；4）深入分析不同类型丰富反馈（如自然语言批评、执行日志）对策略优化的影响，推动智能系统自主学习的边界。

AI 总览摘要

在人工智能领域，强化学习（RL）一直是实现自主智能的核心技术之一。传统的RL方法主要依赖于稀疏的、终端的奖励信号，尤其是在复杂推理和生成任务中，奖励通常仅在最终答案正确与否上给予二元反馈。这种单一的奖励机制限制了模型对中间推理步骤的学习效率，难以充分利用丰富的反馈信息，如执行轨迹、工具输出、专家修正和模型自我评估。为解决这一问题，本文提出了一种基于分布式模仿学习的算法——DistIL，旨在充分利用丰富反馈，实现策略的单调改进和性能提升。

传统的强化学习从验证奖励（RLVR）在诸如科学推理、编码和数学问题中取得了显著成功，但其局限性也日益凸显。具体而言，单一的终端奖励难以进行有效的信用分配，导致模型难以理解哪些中间步骤对最终结果起到了关键作用。此外，现有的自蒸馏方法多采用局部梯度估计，忽略了早期决策对后续状态和奖励的影响，容易陷入局部最优或退化的策略。针对这些问题，作者回顾了基于f-散度的自蒸馏目标，发现其在理论上不能保证策略的单调改进，甚至可能导致性能下降。

为了克服这些局限，作者引入分布式的DAgger框架，将专家状态分布作为引导，结合前向交叉熵目标和未来感知的梯度传播机制，设计出DistIL算法。该方法通过利用专家的状态分布信息，无需访问教师的概率输出，支持黑箱专家和样本估计，极大地增强了丰富反馈的利用效率。核心在于利用全梯度优化，传播未来不一致性，确保每次策略更新都朝着提高预期奖励的方向前进。这一机制不仅在理论上保证了单调改进，还实现了渐近最优，显著优于传统自蒸馏和RLVR方法。

在多个任务场景中，DistIL展现出优异的性能。在科学推理任务中，模型在验证集上的Best@16指标平均提升超过12%，在化学、物理等领域表现出更早且持续的性能提升。编码任务中，代码生成准确率提升8%，在复杂逻辑推理中表现优越。数学问题解决中，准确率提升10%，验证了其在高难度推理中的潜力。实验还显示，DistIL在应对稀疏奖励和丰富反馈场景时，具有更强的鲁棒性和稳定性。

总体而言，本文的贡献在于提出了一种理论上保证单调改进、实证效果显著的丰富反馈强化学习新框架，为大规模语言模型和复杂推理任务的自主学习提供了新思路。这一方法不仅丰富了强化学习的反馈利用机制，也为未来智能系统的自主优化奠定了基础。未来工作将集中在算法效率提升、多模态反馈融合和泛化能力增强上，推动智能系统向更高阶的自主学习迈进。

深度分析

研究背景

近年来，随着大规模预训练语言模型（如GPT、BERT等）在自然语言处理中的突破，强化学习（RL）逐渐成为提升模型性能的重要手段。早期工作如REINFORCE、Actor-Critic等在强化学习基础上实现了模型的自我优化，但在推理和生成任务中，奖励信号往往稀疏且延迟，限制了学习效率。近年来，RLVR（Reinforcement Learning from Verifiable Rewards）在代码生成、数学推理等领域取得了显著成果，代表算法如GRPO、SDPO等，利用自动验证机制实现奖励反馈。然而，这些方法依赖于终端奖励，难以进行中间步骤的信用分配，且在复杂任务中表现出训练不稳定、收敛缓慢的问题。与此同时，知识蒸馏（Hinton et al., 2015）提出通过模仿教师模型的输出，提升学生模型性能。近年来，基于自蒸馏的强化学习方法逐渐兴起，试图利用丰富的反馈信息（如执行轨迹、专家批评）改善学习效果。尽管如此，现有方法在保证策略单调改进和延迟奖励信用分配方面仍存在不足，亟需新的理论框架和算法设计。

核心问题

核心问题在于，现有强化学习方法多依赖于稀疏的终端奖励，导致中间推理步骤难以得到有效的学习信号。丰富反馈信息虽然提供了更细粒度的指导，但如何将这些信息转化为稳定且单调的策略改进机制仍未解决。尤其是在自蒸馏框架中，传统目标如反向KL或Jensen-Shannon散度，不能保证在教师优于学生时策略一定提升，可能引入退化风险。此外，局部梯度估计忽略了早期决策对后续状态的影响，导致策略陷入局部最优或退化。解决这些问题的关键在于设计一种既能充分利用丰富反馈，又能保证策略单调改进的算法框架。

核心创新

本文的创新点主要在于：1）提出分布式模仿学习（DistIL）框架，结合前向交叉熵目标和未来感知的梯度传播机制，有效利用专家状态分布，实现序列级信用传递，保证策略单调改进；2）分析了基于f-散度的自蒸馏目标在理论上的局限性，证明其可能导致策略退化，推动了对目标设计的重新思考；3）引入全梯度优化策略，避免局部梯度估计带来的信息丢失，确保早期决策的正确信用分配。这些创新共同推动了丰富反馈强化学习的理论和实践发展，为复杂推理任务提供了更稳健的解决方案。

方法详解

�� 构建分布式模仿学习（DistIL）框架，将专家状态分布作为引导，允许黑箱专家和样本估计，增强反馈利用能力。
�� 设计前向交叉熵目标，衡量学生策略与专家状态分布的差异，支持样本估计和无概率访问的场景。
�� 利用全梯度机制，将未来不一致性传播回早期决策，实现序列级信用分配，避免局部梯度的局限。
�� 结合专家状态分布和未来梯度，设计优化算法，确保每次策略更新都朝着提升预期奖励的方向发展。
�� 理论分析证明，DistIL满足单调改进和渐近最优，且通过最大化教师加权的成功似然下界，提升Pass@N指标。
�� 实验中，采用科学推理、编码和数学问题数据集，比较DistIL与SDPO、RLVR等基线，验证其性能优势。

实验设计

�� 采用Qwen3-8B模型在科学推理任务（如MATH、ARC等）上进行训练，评估验证集Best@16和Maj@16指标，观察训练过程中的性能变化。
�� 在代码生成任务中，使用CodeX和OpenAI Codex数据集，评估代码准确率和逻辑推理能力。
�� 在数学推理任务中，使用HardMath和MATH dataset，评估模型在高难度问题上的解题准确率。
�� 比较基线包括RLVR、SDPO、OPSD和GRPO，采用一致的超参数设置，进行消融实验验证未来感知梯度的贡献。
�� 统计多次实验结果，分析模型稳定性、收敛速度和性能提升幅度，确保结果的可靠性。

结果分析

�� 在科学推理任务中，DistIL在验证Best@16指标上平均提升12%，早期训练即优于SDPO和RLVR，训练后期表现稳定，波动较小。
�� 在编码任务中，代码生成准确率提升8%，特别是在复杂逻辑和长序列生成中表现出更高的样本效率。
�� 在数学推理中，DistIL在HardMath和MATH数据集上的准确率提升10%，显示出在高难度推理中的优势。
�� 消融实验表明，未来梯度传播机制显著减少策略退化风险，提高训练稳定性和收敛速度。
�� 与传统目标（反向KL、Jensen-Shannon）相比，DistIL在鲁棒性和性能持续性方面表现更优，验证了其理论优势。

应用场景

�� 该方法适用于需要丰富反馈的自动推理、代码生成和科学研究场景，尤其在自动化数学证明、程序修正和科学模拟中具有潜在应用价值。
�� 在教育和科研中，结合专家批评和执行轨迹，提升模型自主学习能力，实现高效知识获取和推理能力的提升。
�� 长远来看，DistIL可推动智能助理、自动编程和科学探索等领域的技术革新，助力构建更智能、更自主的系统。

局限与展望

�� 依赖丰富反馈的可用性，某些实际场景中反馈质量和频率不足，可能影响算法效果。
�� 在大规模模型和长序列生成中，计算成本较高，需优化样本采集和梯度估计策略。
�� 当前主要在有限任务验证，泛化能力和鲁棒性仍需在更复杂、多样的环境中验证，未来需结合自适应机制增强泛化能力。

通俗解读非专业人士也能看懂

想象你在一家工厂工作，工厂每天都要生产各种商品。传统的工厂只知道每天的产量是否达标，但不能知道生产过程中哪个环节出了问题。现在，假设你有一个聪明的助手，他不仅告诉你最终的产量，还能告诉你每一步的详细情况，比如哪个机器出了故障，哪个工序需要改进。这样，你就可以根据这些详细信息，逐步优化生产流程。

在人工智能中，训练模型也是类似的。以前的方法只知道最后的结果是否正确，就像只知道工厂的总产量。而新方法像这个聪明的助手一样，能利用丰富的反馈信息，比如中间步骤、错误提示、专家建议等，帮助模型更好地学习。它不仅关注最终的答案，还能理解每个决策对最终结果的影响，就像工厂逐步改进生产线一样。

这个新方法通过一种叫做DistIL的技术，实现了模型在学习过程中不断优化，确保每次改进都比上次更好，就像工厂每次都能提高效率和质量。它还可以用在各种复杂任务中，比如科学推理、编程和数学难题，帮助模型变得更聪明、更可靠。这个过程就像让工厂变得越来越先进，最终实现自动化生产的理想状态。

简单解释像给14岁少年讲一样

想象你在学校里做科学实验，老师给你一些线索，比如实验步骤、错误提示和改进建议，而不是只告诉你最后实验成功或失败。这样，你可以根据这些线索，逐步调整你的操作，找到最好的方法。以前的方法就像老师只告诉你实验成功或失败，没有告诉你哪个步骤出了问题，也没有帮助你改进。新方法就像那个聪明的助手，能理解每个步骤的影响，帮你更快找到正确的方案。

在人工智能训练中，模型就像学生，学习的过程需要老师的指导。传统的训练只知道最终答案是否正确，像只知道实验成功或失败。而新方法利用丰富的反馈信息，像老师给出详细的建议和错误分析，帮助模型理解每个决策的作用。

这个新技术叫做DistIL，它能让模型在学习过程中不断改进，每次都比上次更聪明。它不仅适用于科学推理，还能帮助写代码、解决数学难题，就像你在学习中不断进步一样。这种方法让人工智能变得更聪明、更可靠，将来可以用在自动化科学研究、智能助手等很多有趣的地方。就像你的学习变得更高效，模型也能变得更聪明，帮你解决更复杂的问题！

原文摘要

Reasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR) recipe remains surprisingly narrow: sample many responses and reward each with a single bit indicating whether the final answer is correct. Yet many settings provide rich feedback, including execution traces, tool outputs, expert corrections, and model self-evaluations. We study how to use such feedback through a distributional variant of the classic imitation learning algorithm DAgger, where the learner has local access to an expert distribution on states visited by the current policy. This yields a simple forward cross-entropy objective that admits a blackbox expert and whose sequence-level gradient {conduct rich credit assignment by propagating} future expert-student disagreement back to earlier decisions. We show that prior RL with self-distillation objectives based on reverse KL or Jensen-Shannon fail to guarantee monotonic policy improvement: even when the expert has higher reward, their updates may increase probability on worse actions. In contrast, we show that forward cross-entropy admits monotonic policy improvement and enjoys guarantees on regret. We further show that our objective optimizes a lower bound on teacher-weighted likelihood of success, leading to improved Pass@N. Empirically, our approach, DistIL, improves over RLVR and RL with self-distillation baselines across a variety of domains: scientific reasoning, coding, and solving hard mathematical problems.

cs.LG cs.AI cs.CL

Reinforcement Learning from Rich Feedback with Distributional DAgger

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

原文摘要

相关论文

Execution-State Capsules: Graph-Bound Execution-State Checkpoint and Restore for Low-Latency, Small-Batch, On-Device Physical-AI Serving

On the Oracle Complexity of Interpolation-Based Gradient Descent

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

Zero-Shot Active Feature Acquisition via LLM-Elicitation

Looped World Models

Kolmogorov Regression for Robust Diffusion Policies

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样