The Role of Feedback Alignment in Self-Distillation

TL;DR

本论文提出反馈对齐机制在自蒸馏中的作用，通过三种反馈设计（二元奖励、参考解、逐步批评）验证，结构对齐显著提升性能。

cs.AI 🔴 高级 2026-06-10 72 次浏览

Semih Kara Oğuzhan Ersoy

深度学习模型蒸馏反馈机制自然语言处理推理能力

核心发现

方法论

本研究采用基于数学推理的solver-critic框架，设计三种不同的反馈条件：GRPO（二元奖励）、RefSol（参考解）和StepAlignFB（逐步对齐批评）。在固定模型架构和训练超参数的基础上，通过对比不同反馈结构对模型性能的影响，验证结构对齐在自蒸馏中的关键作用。具体流程包括：1）训练可调solver生成逐步推理，2）冻结批评者提供不同形式的反馈，3）利用自蒸馏目标（Eq.3）进行训练，4）评估在OpenMathReasoning数据集上的准确率和平均答案长度。采用逐步对齐的批评能精准定位推理错误，仅在错误位置强化信号，显著优于其他反馈方式。

关键结果

在OpenMathReasoning数据集上，StepAlignFB在Pass@12指标达到90.00%，优于GRPO的76.67%和RefSol的86.67%，提升幅度分别为16.11和5.27个百分点（平均@12指标）。此外，逐步对齐反馈在平均正确率和多数投票正确率上表现出明显优势，显示其在复杂推理任务中的优越性。
逐步对齐的优势源于其对错误位置的高效定位，per-token优势分析显示，模型在错误位置的优势值显著负向，而正确位置保持正向，强化正确推理路径，减少错误传播。这种机制类似于过程奖励模型（PRM），但无需训练额外奖励模型。
实验还发现，条件化在参考解上会导致模型在每个Token都试图调整行为，即使是正确步骤也会被迫改变，反而削弱了模型的稳定性。相比之下，结构对齐的逐步批评只在错误位置施加影响，保持正确行为不变，从而提升自蒸馏效果。

研究意义

此研究揭示了反馈设计在自蒸馏中的核心作用，为提升大模型推理能力提供了新思路。通过结构对齐的逐步批评，有望在无需昂贵奖励模型训练的情况下，实现更高效、更精细的模型微调，特别适用于复杂推理和数学问题场景。这一发现对未来大规模语言模型的训练策略具有重要指导意义，推动模型在推理、解释和推断能力方面的突破。

技术贡献

论文提出了基于结构对齐的逐步反馈机制，有效增强自蒸馏的过程信号，避免传统参考解带来的模糊干扰。通过引入逐步对齐的批评策略，模型在推理路径上实现高精度定位错误，提升了信号的局部性和稀疏性。该方法结合了PRM的优势，无需训练奖励模型，降低了训练成本，同时显著提升了模型在数学推理任务中的表现。创新点还包括：1）设计了三种不同的反馈条件，系统性验证了结构对齐的重要性；2）提出了逐步对齐的批评策略，有效强化正确路径，抑制错误传播；3）利用per-token优势分析，揭示了反馈结构对信号局部化的影响。

新颖性

本研究首次系统性比较了不同反馈结构在自蒸馏中的效果，特别强调结构对齐在提升推理性能中的作用。与以往仅关注反馈内容（如参考解或奖励信号）不同，本文引入逐步对齐机制，通过对推理路径的精细调控，实现了信号的局部强化。此方法突破了传统奖励模型依赖的限制，为模型自我改进提供了更高效的途径。创新之处在于：提出了“结构对齐”的反馈设计理念，结合PRM思想，开辟了无需训练奖励模型的高效自蒸馏新路径。

局限性

该方法在高复杂度或多步骤推理任务中仍可能受到批评者反馈质量的限制，批评者的误导可能影响模型训练效果。
逐步对齐策略依赖于高质量的批评者模型，若批评者性能不足，可能导致信号稀疏或偏差，影响模型最终性能。
当前实验主要集中在数学推理任务，泛化到其他自然语言理解或生成任务仍需验证，存在一定局限。

未来方向

未来可以探索多模态反馈机制，将视觉、语音等多源信息融入逐步对齐策略，提升模型的泛化能力。同时，结合强化学习和自监督技术，优化批评者的训练流程，增强反馈的鲁棒性。此外，还应研究多批评者协作机制，以提升反馈的多样性和准确性，推动自蒸馏在更广泛任务中的应用。

AI 总览摘要

近年来，深度学习模型在自然语言处理和推理任务中取得了突破性进展，但模型的推理能力仍受到限制。传统的训练方法依赖大量标注数据或昂贵的奖励模型，难以实现高效的知识迁移和微调。自蒸馏作为一种无需外部教师的训练策略，通过模型自身生成的反馈进行优化，逐渐成为研究热点。

然而，反馈的设计在自蒸馏中扮演着关键角色。不同的反馈结构会直接影响模型学习的效果。本文提出了“反馈对齐”机制，特别强调结构对齐在逐步批评中的作用。通过在数学推理任务中引入三种反馈条件——二元奖励（GRPO）、参考解（RefSol）和逐步对齐批评（StepAlignFB），系统性验证了结构对齐在提升模型性能中的优势。

实验结果显示，逐步对齐批评显著优于其他两种方式，在准确率和推理路径的局部优化方面表现出色。具体而言，在OpenMathReasoning数据集上，StepAlignFB的Pass@12指标达到90.00%，比GRPO提升了16.11个百分点，比参考解提升了5.27个百分点。这一结果充分证明了结构对齐在模型自我改进中的重要性。

更深入的分析表明，逐步对齐通过定位错误位置，强化正确推理路径，类似于过程奖励模型（PRM），但无需训练额外的奖励网络。这种机制不仅降低了训练成本，还增强了模型在复杂推理中的鲁棒性。该研究为未来大规模语言模型的训练提供了新思路，尤其是在推理、解释和推断任务中具有广泛应用潜力。

尽管如此，研究也存在一定局限。批评者模型的质量直接影响反馈效果，复杂任务中的泛化能力仍待验证。未来，结合多模态反馈、多批评者协作以及强化学习技术，有望进一步提升自蒸馏的效率和效果，推动人工智能在更广泛领域的应用与创新。

深度分析

研究背景

深度学习模型在自然语言处理中的应用不断扩展，从早期的基于统计的方法到现代的Transformer架构（如BERT、GPT系列），极大提升了模型的理解和生成能力。模型蒸馏技术（Hinton et al., 2015）在模型压缩和性能提升中扮演重要角色，通过将大模型的知识迁移到小模型，实现效率与效果的平衡。近年来，强化学习（如RLHF）被引入以增强模型推理能力，但其训练成本高昂，且难以精细定位推理错误。自蒸馏作为一种无需外部教师的技术，利用模型自身生成的反馈进行优化，逐渐成为研究热点。相关工作包括Hübotter et al. (2026)的代码执行追踪、Zhao et al. (2026)的参考解、以及Wang et al. (2026)的用户反馈，均强调反馈内容的重要性，但对反馈结构的系统性研究不足。本研究试图填补这一空白，探索反馈设计对自蒸馏效果的影响，特别是结构对齐在推理任务中的潜力。

核心问题

尽管自蒸馏在提升模型推理能力方面展现出潜力，但其效果高度依赖于反馈的设计。传统方法多采用固定的参考解或奖励信号，忽视了推理路径的局部性和错误定位问题。这导致模型在训练过程中难以精准修正错误，甚至可能被错误的反馈误导，影响模型的稳定性和泛化能力。如何设计一种既能提供细粒度信息，又能引导模型逐步改进的反馈机制，成为核心难题。此外，现有反馈多为全局性或模糊的信号，缺乏对推理路径的结构化指导，限制了模型的推理深度和准确性。

核心创新

本研究的核心创新在于提出了结构对齐的逐步批评机制，强调反馈内容与模型推理路径的对齐。具体包括：1）引入逐步对齐的批评策略，使反馈精准定位推理错误，强化正确路径；2）结合PRM思想，利用自然语言反馈实现过程级奖励，无需训练额外奖励模型；3）通过per-token优势分析，揭示反馈结构对信号局部化的影响。这种机制突破了传统全局性反馈的局限，显著提升了模型在复杂推理任务中的表现。创新点还在于：系统性比较三种反馈条件，验证结构对齐的有效性，为未来反馈设计提供理论基础。

方法详解

�� 设计solver-critic框架：训练可调solver生成逐步推理，批评者（critic）冻结提供不同反馈。
�� 三种反馈条件：GRPO（无反馈，使用二元奖励）、RefSol（参考解，强模型生成）、StepAlignFB（逐步对齐批评，模仿推理路径）
�� 训练目标：利用自蒸馏目标（Eq.3），在不同反馈条件下训练模型，优化推理路径。
�� 逐步对齐策略：批评者复制正确步骤，修正错误步骤，保持推理路径一致性，强化错误位置。
�� 实验流程：在OpenMathReasoning数据集上，评估不同反馈条件对模型准确率和推理路径的影响。
�� 分析：利用per-token优势，评估反馈在错误定位和路径强化中的作用。
�� 训练细节：采用Qwen3-1.7B模型，温度1.1，最大2048 tokens，G=1（自蒸馏）或8（GRPO），使用前向KL作为距离度量。
�� 关键技术：利用vLLM进行高效推理，设计批评者提示模板，确保逐步对齐的反馈质量。

实验设计

实验采用OpenMathReasoning数据集，筛选难度较高的问题（pass_rate_72b_tir > 0.85），确保批评者模型能有效提供反馈。模型训练包括：多轮采样（G=1或8），在不同反馈条件（GRPO、RefSol、StepAlignFB）下进行，训练7个epoch，保存每10步的模型checkpoint。评估指标包括Pass@12、Maj@12、Avg@12和平均答案长度，比较不同方法的性能。通过多次试验验证逐步对齐的优势，分析不同反馈对模型路径和性能的影响。还进行了ablation研究，验证verbatim复制、部分复制和完全复制对信号的影响。

结果分析

逐步对齐反馈在所有指标上均优于其他两种方式，尤其在Pass@12和Maj@12方面表现突出，提升幅度分别达16.11和5.27个百分点。模型在训练过程中，逐步对齐策略能有效定位错误，强化正确推理路径，减少错误传播。实验还显示，条件化在参考解上会导致模型在每个Token都试图调整行为，反而降低了性能。逐步对齐通过局部化信号，显著提升模型的推理准确率和路径稳定性。这些结果验证了结构对齐在自蒸馏中的关键作用，为未来推理模型的训练提供了新思路。

应用场景

该方法适用于需要高精度推理的数学、逻辑和推断任务，特别是在有限标注或昂贵奖励信号难以获得的场景。通过设计结构化反馈，可以在无需额外奖励模型的情况下，提升模型的推理能力，降低训练成本。未来还可结合多模态信息，拓展到视觉推理、跨模态理解等领域。此外，该机制也适合在教育、自动问答和科学计算等行业中应用，帮助模型更好地理解复杂推理过程。

局限与展望

当前方法依赖高质量的批评者模型，批评者性能不足会影响反馈效果。对于超复杂或多步骤推理任务，反馈的局部性可能不足以覆盖所有错误，存在遗漏风险。此外，逐步对齐策略在大规模应用中可能面临计算成本和效率问题，尤其是在高维任务中，反馈生成和处理的复杂度较高。未来需要优化批评者设计，提升反馈质量和效率，扩展到更多任务场景。

通俗解读非专业人士也能看懂

想象你在学习做一道复杂的菜。你有一本食谱（模型的推理路径），但不总是能做到完美。有时候，你会请一个厨艺高手（批评者）帮你指出哪里做错了，或者告诉你下一步该怎么改。最好的情况是，这个厨艺高手能逐步告诉你每个步骤哪里出错了，而不是只告诉你最终的结果。这样，你可以专注于改正错误的部分，保持正确的做法。这个过程就像论文中的逐步批评机制，它帮助模型在推理过程中找到错误，然后只修正那些出错的部分，而不是全盘否定。这种方法让学习变得更精准、更高效，就像你在厨房里逐步改进菜肴一样。

简单解释像给14岁少年讲一样

嘿，你知道学习做一道复杂的菜有多难吗？有时候，菜做不好不是因为你不会做，而是因为在某个步骤出了错。想象一下，如果你有一个超级厉害的厨师朋友，他可以逐步告诉你哪一步错了，哪一步做得对，还会帮你改正。这样，你就能更快学会怎么做出好菜。论文里的方法就像这个厨师朋友，他会在你做菜的每一步给你建议，只在你出错的地方提醒你，而不是每次都告诉你整份菜怎么做。这样，你学得更快，也能做出更棒的菜！

术语表

Feedback Alignment (反馈对齐)

一种设计反馈信息的方法，使模型的学习信号与其推理路径对齐，从而提升学习效率。技术上通过结构化的逐步批评实现，确保反馈内容与推理错误位置对应。

论文中强调结构对齐在自蒸馏中的关键作用。

Self-Distillation (自蒸馏)

一种模型训练方法，模型既作为学生也作为教师，通过自身生成的反馈进行优化，无需外部教师。核心在于利用模型自身的输出作为学习信号。

论文采用自蒸馏机制提升推理能力。

Progressive Reasoning Model (PRM, 过程奖励模型)

一种通过逐步奖励错误位置的模型，强化正确推理路径，减少错误传播。在本研究中通过自然语言反馈实现，无需训练奖励网络。

用于分析反馈结构对模型路径的影响。

逐步对齐批评 (Step-Aligned Critique)

批评者根据模型推理路径逐步提供反馈，复制正确步骤，修正错误步骤，确保反馈与推理路径结构一致。

论文的核心创新策略。

OpenMathReasoning Dataset

一个用于数学推理任务的数据集，包含难度较高的问题，适合验证模型推理和自蒸馏效果。

实验中使用的数据集。

KL Divergence (Kullback-Leibler散度)

衡量两个概率分布差异的指标，广泛用于模型训练中的距离度量。在本文中用于自蒸馏目标的优化。

作为训练目标的距离度量。

vLLM

一种高效的多模型推理框架，支持大规模模型的快速推理和反馈生成。

用于逐步批评的推理流程。

Induction-Head Copying (归纳头复制)

Transformer中的机制，利用前文信息进行模式复制，支持在反馈中实现部分逐字复制，增强路径局部化。

解释逐步对齐中复制行为的机制。

on-policy training (在线策略训练)

模型在训练过程中使用自身生成的数据进行优化，避免偏离目标分布。本文采用此策略进行自蒸馏。

训练流程的核心策略。

Group Normalization (组归一化)

一种归一化技术，用于稳定训练中的奖励估计，确保不同样本间的奖励分布一致。

用于奖励归一化。

开放问题这项研究留下的未解疑问

1 虽然逐步对齐反馈在数学推理中表现优异，但其在自然语言理解、生成等其他任务中的效果尚未充分验证。如何设计跨任务的结构化反馈机制，提升模型的泛化能力，是未来的重要研究方向。
2 批评者模型的质量直接影响反馈效果，当前的批评者多为预训练模型，如何提升批评者的准确性和鲁棒性，仍需探索。特别是在复杂、多模态场景下，反馈的多样性和一致性是挑战。
3 反馈机制的计算成本较高，尤其是在大规模模型中，逐步生成和处理反馈需要大量计算资源。如何优化反馈生成流程，降低成本，提升效率，是未来的关键问题。
4 目前实验主要集中在数学推理任务，其他领域如逻辑推理、常识推断等的适应性和效果还未充分研究。需要扩展验证范围，确保方法的广泛适用性。
5 模型在多步骤推理中的错误定位能力仍有限，未来可以结合强化学习或模仿学习，进一步提升错误识别和修正的精度。

应用场景

近期应用

数学推理系统优化

利用逐步对齐反馈机制，提升数学题解模型的准确率，特别适合教育、自动解题等场景，减少对昂贵奖励模型的依赖。

自动问答与推理增强

在自动问答系统中引入结构化逐步反馈，改善模型对复杂问题的理解和推理能力，提升回答的准确性和逻辑性。

模型微调与知识迁移

通过自蒸馏结合逐步反馈，实现模型在特定任务上的高效微调，减少标注成本，增强模型的推理深度。

远期愿景

跨模态推理与理解

结合视觉、语音等多模态信息，设计多源结构化反馈机制，推动多模态大模型的推理能力突破。

自主学习与自我优化

实现模型在无需外部标注的情况下，通过内部反馈不断自我改进，迈向真正的自主智能系统。

原文摘要

Conditioning a language model on additional context, such as feedback on a previous attempt, typically improves its response. Self-distillation trains the model to retain this improvement when the context is not present. The method works by matching the model's output distribution under two settings: a student that sees only the question, and a self-teacher that also sees the context. What the model learns therefore depends on what context the self-teacher receives, yet the design of this context remains largely unexplored. We study context design for self-distillation by training a solver on feedback from a frozen critic. We compare three conditions: (i) a binary reward (GRPO), (ii) the reference solution, and (iii) a step-by-step critique aligned to the solver's reasoning trace. Step-aligned critique yields the largest gains, outperforming GRPO by 16.11 points and reference-solution-conditioned self-distillation by 5.27 points (Avg@12). Per-token advantage analysis reveals why: step-aligned feedback targets only the tokens where reasoning fails, leaving correct behavior intact. Conditioning on the reference solution, by contrast, pressures the model to change its behavior at every token (even correct steps) because an alternative derivation inevitably differs in phrasing and approach. This suggests that structural alignment between feedback and the solver's reasoning is a key driver of self-distillation effectiveness.

cs.AI cs.LG

参考文献 (20)

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

Tri Dao, Daniel Y. Fu, Stefano Ermon 等

2022 4470 引用查看解读 →

ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate

Chi-Min Chan, Weize Chen, Yusheng Su 等

2023 937 引用查看解读 →

Large Language Models are Zero-Shot Reasoners

Takeshi Kojima, S. Gu, Machel Reid 等

2022 7253 引用查看解读 →

Training Verifiers to Solve Math Word Problems

K. Cobbe, Vineet Kosaraju, Mo Bavarian 等

2021 9174 引用查看解读 →

Qwen3 Technical Report

An Yang, Anfeng Li, Baosong Yang 等

2025 5778 引用查看解读 →

Decoupled Weight Decay Regularization

I. Loshchilov, F. Hutter

2017 34824 引用

In-context Learning and Induction Heads

Catherine Olsson, Nelson Elhage, Neel Nanda 等

2022 889 引用查看解读 →

Let's Verify Step by Step

H. Lightman, Vineet Kosaraju, Yura Burda 等

2023 3515 引用查看解读 →

OpenClaw-RL: Train Any Agent Simply by Talking

Yinjie Wang, Xuyang Chen, Xiaolong Jin 等

2026 49 引用查看解读 →

LoRA: Low-Rank Adaptation of Large Language Models

J. Hu, Yelong Shen, Phillip Wallis 等

2021 19779 引用查看解读 →

On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

Rishabh Agarwal, Nino Vieillard, Yongchao Zhou 等

2023 465 引用查看解读 →

AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset

Ivan Moshkov, Darragh Hanley, Ivan Sorokin 等

2025 133 引用查看解读 →

Show Your Work: Scratchpads for Intermediate Computation with Language Models

Maxwell Nye, Anders Andreassen, Guy Gur-Ari 等

2021 1040 引用查看解读 →

Language Models are Few-Shot Learners

Tom B. Brown, Benjamin Mann, Nick Ryder 等

2020 59110 引用查看解读 →

Reinforcement Learning via Self-Distillation

Jonas Hubotter, Frederike Lubeck, L. Behric 等

2026 130 引用查看解读 →

Expanding the Capabilities of Reinforcement Learning via Text Feedback

Yuda Song, Lili Chen, Fahim Tajwar 等

2026 32 引用查看解读 →

Self-Rewarding Language Models

Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho 等

2024 617 引用查看解读 →

Aligning Language Models from User Interactions

T. Buening, Jonas Hubotter, Barna P'asztor 等

2026 11 引用查看解读 →

Efficient Memory Management for Large Language Model Serving with PagedAttention

Woosuk Kwon, Zhuohan Li, Siyuan Zhuang 等

2023 6436 引用查看解读 →

A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning

S. Ross, Geoffrey J. Gordon, J. Bagnell

2010 4077 引用查看解读 →

The Role of Feedback Alignment in Self-Distillation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

Feedback Alignment (反馈对齐)

Self-Distillation (自蒸馏)

Progressive Reasoning Model (PRM, 过程奖励模型)

逐步对齐批评 (Step-Aligned Critique)

OpenMathReasoning Dataset

KL Divergence (Kullback-Leibler散度)

vLLM

Induction-Head Copying (归纳头复制)

on-policy training (在线策略训练)

Group Normalization (组归一化)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

数学推理系统优化

自动问答与推理增强

模型微调与知识迁移

远期愿景

跨模态推理与理解

自主学习与自我优化

原文摘要

参考文献 (20)

相关论文

DeepSWIP: Quotient-WMC Counterfactuals for Neural Probabilistic Logic Programs

Multi-Agent Transactive Memory

DRFLOW: A Deep Research Benchmark for Personalized Workflow Prediction

Abstracting Cross-Domain Action Sequences into Interpretable Workflows

Automated reproducibility assessments in the social and behavioral sciences using large language models

A History-Aware Visually Grounded Critic for Computer Use Agents

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问