Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs?

TL;DR

自蒸馏在数学推理中可能降低LLM性能,因抑制不确定性表达。

cs.CL 🔴 高级 2026-03-26 70 次浏览
Jeonghye Kim Xufang Luo Minbeom Kim Sangmook Lee Dohyung Kim Jiwon Jeon Dongsheng Li Yuqing Yang
自蒸馏 大语言模型 数学推理 不确定性表达 推理能力下降

核心发现

方法论

本研究通过控制实验,探讨自蒸馏对大语言模型(LLM)推理能力的影响,尤其是在数学推理任务中。研究中使用了Qwen3-8B、DeepSeek-Distill-Qwen-7B和Olmo3-7B-Instruct模型,分析了教师模型在丰富信息条件下对学生模型的不确定性表达的抑制作用。实验通过改变条件上下文的丰富性和任务覆盖范围,系统地研究了自蒸馏如何影响模型的推理行为。

关键结果

  • 在Qwen3-8B、DeepSeek-Distill-Qwen-7B和Olmo3-7B-Instruct模型中,自蒸馏导致性能下降高达40%。这种下降主要是由于模型在推理过程中不再表达不确定性,导致在未见问题上的表现变差。
  • 实验表明,当教师模型在丰富信息条件下进行训练时,学生模型的推理轨迹变得更为自信和简洁,但这也抑制了不确定性表达,影响了模型在OOD任务上的表现。
  • 通过对比不同条件下的模型表现,发现自蒸馏在信息丰富的上下文中会导致推理风格的变化,尽管在域内优化时表现良好,但在广泛的任务覆盖范围下表现不佳。

研究意义

本研究揭示了自蒸馏在数学推理任务中可能导致推理能力下降的机制,强调了在推理过程中适当表达不确定性的重要性。这一发现对学术界和工业界具有重要意义,因为它挑战了当前关于自蒸馏普遍提高模型性能的假设,并指出了优化推理行为的新方向,超越了仅仅强化正确答案路径的传统做法。

技术贡献

技术贡献包括揭示了自蒸馏在丰富信息条件下对不确定性表达的抑制作用,以及这种抑制如何影响模型的推理能力和泛化性能。研究还提出了优化推理行为的新方法,强调了在推理过程中保留不确定性表达的重要性,以提高模型在未见任务上的表现。

新颖性

该研究首次系统地分析了自蒸馏在数学推理任务中对不确定性表达的影响,提出了在丰富信息条件下自蒸馏可能导致推理能力下降的机制。这一发现与以往研究中自蒸馏普遍提高性能的结论形成对比,提供了新的视角。

局限性

  • 研究主要集中在数学推理任务中,可能不适用于其他领域的推理任务。不同领域的推理任务可能对不确定性表达的需求不同。
  • 实验中使用的模型和数据集有限,可能无法全面代表所有大语言模型的行为。
  • 研究中未考虑模型在不同推理任务中的具体表现差异,这可能影响结论的普适性。

未来方向

未来研究可以探索自蒸馏在其他推理任务中的表现,尤其是在需要高度不确定性表达的任务中。此外,研究可以进一步分析不同模型架构和数据集对自蒸馏效果的影响,以开发更为通用的优化策略。

AI 总览摘要

在大语言模型(LLM)的后训练过程中,自蒸馏作为一种有效的范式,通常能够提高模型性能并缩短推理路径。然而,在数学推理任务中,研究发现自蒸馏可能会缩短响应长度,同时降低性能。这一现象的根源在于模型在推理过程中不再表达不确定性。通过一系列控制实验,研究者们发现,当教师模型在丰富信息条件下进行训练时,学生模型的推理轨迹变得更为自信和简洁,但这也抑制了不确定性表达,影响了模型在OOD任务上的表现。

研究中使用了Qwen3-8B、DeepSeek-Distill-Qwen-7B和Olmo3-7B-Instruct模型,分析了自蒸馏在不同条件下的影响。实验表明,在这些模型中,自蒸馏导致性能下降高达40%。这种下降主要是由于模型在推理过程中不再表达不确定性,导致在未见问题上的表现变差。

研究揭示了自蒸馏在数学推理任务中可能导致推理能力下降的机制,强调了在推理过程中适当表达不确定性的重要性。这一发现对学术界和工业界具有重要意义,因为它挑战了当前关于自蒸馏普遍提高模型性能的假设,并指出了优化推理行为的新方向,超越了仅仅强化正确答案路径的传统做法。

技术贡献包括揭示了自蒸馏在丰富信息条件下对不确定性表达的抑制作用,以及这种抑制如何影响模型的推理能力和泛化性能。研究还提出了优化推理行为的新方法,强调了在推理过程中保留不确定性表达的重要性,以提高模型在未见任务上的表现。

未来研究可以探索自蒸馏在其他推理任务中的表现,尤其是在需要高度不确定性表达的任务中。此外,研究可以进一步分析不同模型架构和数据集对自蒸馏效果的影响,以开发更为通用的优化策略。

深度分析

研究背景

近年来,大语言模型(LLM)在自然语言处理领域取得了显著进展。自蒸馏作为一种后训练技术,旨在通过使用同一模型的两个实例来提高模型性能,其中一个实例作为教师模型,提供信息丰富的奖励信号,另一个实例作为学生模型,生成响应。自蒸馏已被证明在多个领域中能够显著提高模型性能,尤其是在科学推理和代理环境中。然而,关于自蒸馏在数学推理任务中的效果,研究较少。

核心问题

自蒸馏在数学推理任务中可能导致模型推理能力下降。核心问题在于,自蒸馏过程中,模型在推理时不再表达不确定性,这种抑制可能影响模型在未见问题上的表现。数学推理任务通常需要模型在不同推理路径上表达不确定性,以便在推理过程中进行调整和校正。

核心创新

本研究的核心创新在于揭示了自蒸馏在数学推理任务中对不确定性表达的抑制作用。研究通过控制实验,系统地分析了自蒸馏在不同条件下的影响,尤其是在信息丰富的上下文中如何影响模型的推理行为。研究还提出了优化推理行为的新方法,强调了在推理过程中保留不确定性表达的重要性。

方法详解

  • �� 使用Qwen3-8B、DeepSeek-Distill-Qwen-7B和Olmo3-7B-Instruct模型进行实验。
  • �� 通过改变条件上下文的丰富性,分析自蒸馏对模型推理行为的影响。
  • �� 控制实验中,教师模型在丰富信息条件下进行训练,学生模型在有限任务覆盖范围内进行优化。
  • �� 观察模型在OOD任务上的表现,分析不确定性表达对推理能力的影响。

实验设计

实验设计包括使用Qwen3-8B、DeepSeek-Distill-Qwen-7B和Olmo3-7B-Instruct模型进行对比实验。实验中使用了不同的数据集和基线模型,评估指标包括模型的推理能力和响应长度。实验还进行了消融研究,以分析不同条件下自蒸馏的效果。

结果分析

实验结果表明,自蒸馏在数学推理任务中可能导致性能下降高达40%。这种下降主要是由于模型在推理过程中不再表达不确定性,导致在未见问题上的表现变差。实验还发现,当教师模型在丰富信息条件下进行训练时,学生模型的推理轨迹变得更为自信和简洁,但这也抑制了不确定性表达,影响了模型在OOD任务上的表现。

应用场景

研究结果对大语言模型的优化具有重要意义,尤其是在需要高度不确定性表达的推理任务中。研究揭示了自蒸馏在数学推理任务中可能导致推理能力下降的机制,强调了在推理过程中适当表达不确定性的重要性。

局限与展望

研究主要集中在数学推理任务中,可能不适用于其他领域的推理任务。实验中使用的模型和数据集有限,可能无法全面代表所有大语言模型的行为。研究中未考虑模型在不同推理任务中的具体表现差异,这可能影响结论的普适性。

通俗解读 非专业人士也能看懂

想象一下你在厨房里做饭。你有一个食谱(教师模型),它告诉你如何做出完美的菜肴。你按照食谱一步一步来(学生模型),但有时候你可能会对某些步骤感到不确定,比如“这个调料要放多少?”这时候,你可能会停下来想一想,甚至尝试一下不同的量(不确定性表达)。

现在,假设你有一个超级智能的厨师助手(自蒸馏),它会在你做饭时给你建议。这个助手非常自信,总是告诉你“就这样做,不用担心!”结果是,你的菜做得很快,但有时候味道不太对,因为你没有机会去尝试和调整。

这就是自蒸馏在数学推理中的问题。模型在推理过程中不再表达不确定性,导致在未见问题上的表现变差。就像在厨房里,如果你总是按照助手的建议做,而不去尝试和调整,你可能会错过一些美味的可能性。

所以,适当表达不确定性是很重要的,它让你有机会去尝试和调整,从而在面对新问题时表现得更好。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!你们有没有玩过那种需要解谜的游戏?比如说,你要找到一个宝藏,但在路上会遇到很多谜题。有时候,你可能会想:“这个谜题我该怎么解呢?”这时候,你可能会尝试不同的方法,甚至问问朋友的意见,对吧?

现在,想象一下你有一个超级厉害的游戏助手,它总是告诉你:“就这样做,没问题!”一开始你可能觉得很棒,因为你可以很快找到宝藏。但是,慢慢地你会发现,有些谜题你还是解不出来,因为助手总是给你同样的建议,而你没有机会去尝试不同的方法。

这就像是科学家们在研究大语言模型时发现的问题。模型在解决数学问题时,有时候会因为太自信而不去尝试不同的方法,导致在遇到新问题时表现不好。

所以,适当表达不确定性就像在游戏中尝试不同的方法一样重要。它让你有机会去探索和学习,从而在面对新挑战时表现得更好!

术语表

自蒸馏 (Self-Distillation)

一种后训练技术,通过使用同一模型的两个实例来提高模型性能,其中一个实例作为教师模型,提供信息丰富的奖励信号,另一个实例作为学生模型,生成响应。

在研究中用于分析自蒸馏对大语言模型推理能力的影响。

不确定性表达 (Epistemic Verbalization)

在推理过程中,模型通过语言表达其对某些推理路径的不确定性。这种表达可以帮助模型在推理过程中进行调整和校正。

研究中分析了自蒸馏对不确定性表达的抑制作用。

大语言模型 (Large Language Model, LLM)

一种基于深度学习的自然语言处理模型,能够生成和理解人类语言。

研究中使用了Qwen3-8B、DeepSeek-Distill-Qwen-7B和Olmo3-7B-Instruct模型。

推理能力 (Reasoning Capability)

模型在解决问题时,能够进行逻辑推理和决策的能力。

研究中分析了自蒸馏对模型推理能力的影响。

域内优化 (In-Domain Optimization)

模型在训练数据分布内进行优化,提高在已知任务上的表现。

研究中分析了自蒸馏在有限任务覆盖范围内的域内优化效果。

OOD表现 (Out-of-Distribution Performance)

模型在未见过的数据或任务上的表现。

研究中分析了自蒸馏对模型OOD表现的影响。

Qwen3-8B

一种大语言模型,用于研究自蒸馏对推理能力的影响。

研究中使用的模型之一。

DeepSeek-Distill-Qwen-7B

一种大语言模型,用于研究自蒸馏对推理能力的影响。

研究中使用的模型之一。

Olmo3-7B-Instruct

一种大语言模型,用于研究自蒸馏对推理能力的影响。

研究中使用的模型之一。

条件上下文 (Conditioning Context)

在自蒸馏过程中,教师模型所依据的信息背景。

研究中分析了条件上下文的丰富性对自蒸馏效果的影响。

信息丰富性 (Information Richness)

条件上下文中包含的信息量和细节程度。

研究中分析了信息丰富性对不确定性表达的影响。

任务覆盖范围 (Task Coverage)

模型在训练过程中所接触到的任务种类和数量。

研究中分析了任务覆盖范围对自蒸馏效果的影响。

消融研究 (Ablation Study)

通过逐步去除或改变模型的某些部分,来分析其对整体性能的影响。

研究中使用消融研究来分析自蒸馏的效果。

推理轨迹 (Reasoning Trajectory)

模型在解决问题时所经历的推理路径和步骤。

研究中分析了自蒸馏对推理轨迹的影响。

模型性能 (Model Performance)

模型在特定任务上的表现,包括准确率、响应时间等指标。

研究中分析了自蒸馏对模型性能的影响。

开放问题 这项研究留下的未解疑问

  • 1 自蒸馏在其他领域推理任务中的效果如何?目前的研究主要集中在数学推理任务中,其他领域的推理任务可能对不确定性表达的需求不同。
  • 2 不同模型架构和数据集对自蒸馏效果的影响是什么?研究中使用的模型和数据集有限,可能无法全面代表所有大语言模型的行为。
  • 3 如何在自蒸馏过程中有效保留不确定性表达?研究中发现不确定性表达对推理能力的重要性,但如何在自蒸馏过程中有效保留这种表达仍需进一步探索。
  • 4 自蒸馏对模型泛化能力的影响机制是什么?研究揭示了自蒸馏可能导致推理能力下降的机制,但具体的影响机制仍需深入研究。
  • 5 如何优化自蒸馏以提高模型在未见任务上的表现?研究中提出了优化推理行为的新方法,但具体的优化策略仍需进一步验证。

应用场景

近期应用

数学推理任务优化

研究结果可以用于优化大语言模型在数学推理任务中的表现,尤其是在需要高度不确定性表达的任务中。

教育领域应用

大语言模型可以用于教育领域的自动解题和评估系统,通过适当表达不确定性,提高系统的准确性和可靠性。

科学研究辅助

大语言模型可以用于科学研究中的数据分析和推理任务,通过优化自蒸馏,提高模型在复杂任务中的表现。

远期愿景

通用人工智能发展

通过优化自蒸馏和不确定性表达,推动大语言模型向通用人工智能的发展,提高其在各类任务中的表现。

跨领域应用扩展

研究结果可以用于扩展大语言模型在不同领域的应用,包括医疗、金融和法律等领域的自动化决策和推理任务。

原文摘要

Self-distillation has emerged as an effective post-training paradigm for LLMs, often improving performance while shortening reasoning traces. However, in mathematical reasoning, we find that it can reduce response length while degrading performance. We trace this degradation to the suppression of epistemic verbalization - the model's expression of uncertainty during reasoning. Through controlled experiments varying conditioning context richness and task coverage, we show that conditioning the teacher on rich information suppresses uncertainty expression, enabling rapid in-domain optimization with limited task coverage but harming OOD performance, where unseen problems benefit from expressing uncertainty and adjusting accordingly. Across Qwen3-8B, DeepSeek-Distill-Qwen-7B, and Olmo3-7B-Instruct, we observe performance drops of up to 40%. Our findings highlight that exposing appropriate levels of uncertainty is crucial for robust reasoning and underscore the importance of optimizing reasoning behavior beyond merely reinforcing correct answer traces.

cs.CL cs.LG

参考文献 (17)

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Adam Suma, Sam Dauncey

2025 1987 引用 ⭐ 高影响力

Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty

Jeonghye Kim, Xufang Luo, Minbeom Kim 等

2026 1 引用 ⭐ 高影响力 查看解读 →

Reinforcement Learning via Self-Distillation

Jonas Hubotter, Frederike Lubeck, L. Behric 等

2026 17 引用 查看解读 →

HybridFlow: A Flexible and Efficient RLHF Framework

Guangming Sheng, Chi Zhang, Zilingfeng Ye 等

2024 1345 引用 查看解读 →

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Qiying Yu, Zheng Zhang, Ruofei Zhu 等

2025 1444 引用 查看解读 →

Qwen3 Technical Report

An Yang, Anfeng Li, Baosong Yang 等

2025 3827 引用 查看解读 →

LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code

Naman Jain, King Han, Alex Gu 等

2024 1225 引用 查看解读 →

On-Policy Context Distillation for Language Models

Tianzhu Ye, Li Dong, Xun Wu 等

2026 3 引用 查看解读 →

Learning by Distilling Context

Charles Burton Snell, D. Klein, Ruiqi Zhong

2022 72 引用 查看解读 →

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Siyan Zhao, Zhihui Xie, Mengchen Liu 等

2026 18 引用 查看解读 →

Expanding the Capabilities of Reinforcement Learning via Text Feedback

Yuda Song, Lili Chen, Fahim Tajwar 等

2026 5 引用 查看解读 →

(Preprint)

Sarah Verschueren, J. van Aalst, A. Bangels 等

2018 4382 引用

Trans-Formers

Oliver Bendel

2020 35 引用

In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback

Mingye Zhu, Yi Liu, Zheren Fu 等

2025 1 引用 查看解读 →

ToolAlpaca: Generalized Tool Learning for Language Models with 3000 Simulated Cases

Qiaoyu Tang, Ziliang Deng, Hongyu Lin 等

2023 320 引用 查看解读 →

SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models

Kehua Feng, Keyan Ding, Weijie Wang 等

2024 22 引用

Self-Distillation Enables Continual Learning

Idan Shenfeld, Mehul Damani, Jonas Hübotter 等

2026 14 引用 查看解读 →