Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

TL;DR

本文分析了基于策略的蒸馏（OPD）中的参数稀疏性与几何结构，发现其更新具有稀疏、非低秩但谱集中等特征，揭示了密集教师监督下的模型微调特性。

cs.LG 🔴 高级 2026-06-12 94 次浏览

Guo Yu Wenlin Liu Yulan Hu Hao-Xuan Ma Jun-Peng Jiang Han-Jia Ye

模型蒸馏参数稀疏性几何结构深度学习优化模型微调

核心发现

方法论

本文采用参数空间的差分分析，通过计算源模型与微调后模型的参数差异，结合范数、稀疏性、奇异值谱和源空间投影等指标，系统分析了在多种大规模语言和视觉语言模型上的OPD参数更新特征。具体方法包括：• 计算checkpoint差异的Frobenius范数，衡量整体更新规模；• 采用阈值检测参数坐标的稀疏性，评估局部更新的稀疏程度；• 利用奇异值分解（SVD）分析参数矩阵的谱集中程度；• 通过源模型的奇异空间投影，判断更新是否沿源模型的主成分方向。实验涵盖Qwen、DeepScaleR、MiniCPM等模型，结合不同的蒸馏策略和优化器（AdamW与SGD）进行对比。分析还包括掩码重叠、子网络微调能力验证等多角度验证。

关键结果

OPD风格的参数更新在相对范数上极小（如Qwen3-1.7B仅为0.045%），且在参数坐标上高度稀疏（66.72%到89.50%的参数变化低于10^-5阈值），表现出明显的稀疏支持结构。尽管参数矩阵在数值上满秩（中位数接近100%），但谱能集中在前几奇异值（前16个奇异值能量占比约26.92%），显示谱集中特征。更新偏离源模型的主奇异空间，主要集中在源模型权重接近零的坐标上。掩码重叠分析表明OPD子网络与RLVR和教师变化的子网络有显著重叠（如Qwen2.5-VL模型中，73.53%的OPD更新坐标被RLVR掩码覆盖），说明OPD在参数空间中保持了特有的几何签名。
结果还显示，使用AdamW优化器在微调中优于SGD（如在JustRL设置中，AdamW最高达43.02%的平均准确率，而SGD仅37.92%），表明稀疏参数更新并不意味着可以舍弃自适应优化器。子网络微调实验表明，仅用OPD发现的子网络即可几乎恢复完整模型的推理性能（如验证准确率差异小于0.5%），验证了稀疏子网络的操作有效性。
此外，参数更新在不同层次和模块中分布，FFN（前馈网络）占据绝大部分能量（65%-86%），而注意力机制在某些模型中也贡献显著（如Qwen3-1.7B达到27%），显示OPD在模型不同部分的写入具有层次化和模块化特征。

研究意义

本研究揭示了在密集教师监督下，策略性蒸馏（OPD）所引起的参数变化具有稀疏、非低秩但谱集中、偏离源模型主奇异空间的复杂几何结构。这一发现挑战了传统对模型微调的低秩和稠密写入的假设，为理解大规模模型的微调机制提供了新视角。其意义在于：• 揭示了稀疏子网络在模型微调中的操作潜能，有助于设计参数高效的微调策略；• 说明密集教师信号并不简单导致全参数的密集重写，而是保持了模型的几何特征，有助于理解模型的内在结构变化；• 为未来的模型压缩、子网络微调和高效蒸馏提供理论基础和实践指导。通过分析不同优化器的表现，还强调了在稀疏和谱结构保持方面，优化器选择的重要性。

技术贡献

本文首次系统分析了在策略性蒸馏（OPD）中参数更新的稀疏性和几何结构，提出了多指标结合的分析框架，包括范数、稀疏性、奇异值谱和源空间投影。研究发现：• OPD参数更新在范数上极小，稀疏性高，表现为坐标稀疏且分布在多层中；• 虽然数值满秩，但谱能集中在少数奇异值，显示谱集中特征；• 更新偏离源模型主奇异空间，主要集中在接近零的坐标上。实验还验证了子网络微调的有效性，提出了稀疏子网络的操作潜能，并比较了AdamW与SGD优化器的性能差异，强调了梯度异质性的重要性。这些贡献丰富了大模型微调的理论体系，为参数高效微调和模型压缩提供了新思路。

新颖性

本研究首次系统揭示了在密集教师监督下，策略性蒸馏（OPD）引发的参数变化具有稀疏、谱集中、偏离源模型主奇异空间的几何特征，区别于传统的低秩或全参数更新。相较于以往只关注稀疏或低秩的研究，本文结合谱分析和源空间投影，提出了全新的视角理解OPD的参数动态。特别是，发现尽管更新数值满秩，但谱集中特性和偏离主奇异空间的偏向，揭示了模型微调的复杂几何结构。这一发现填补了关于策略性蒸馏参数特征的研究空白，为后续高效微调和子网络设计提供了理论基础。

局限性

本研究主要基于大规模语言和视觉语言模型，尚未验证在其他类型模型（如图像生成或强化学习模型）中的普适性，未来需扩展到更多模型架构和任务场景。
分析指标虽多，但对参数稀疏性和谱集中程度的解释仍存在一定局限，尤其是在不同训练阶段的动态变化未充分展开，未来应结合训练过程中的动态分析。
实验中采用的优化器对比主要集中在AdamW与SGD，未考虑其他优化策略（如LAMB、AdaGrad等），未来可以丰富优化器的比较，深入理解优化器对几何结构的影响。

未来方向

未来工作将聚焦于：• 设计更高效的子网络微调算法，利用稀疏结构实现模型压缩与快速适应；• 深入研究谱集中与模型泛化能力的关系，探索谱结构在模型鲁棒性中的作用；• 扩展分析到不同任务和模型类型，验证稀疏与几何特征的普适性；• 结合训练动态，研究参数稀疏性与训练过程中的梯度变化关系，为优化策略提供理论支撑。

AI 总览摘要

在当今大规模预训练模型的快速发展中，模型微调成为提升性能和适应新任务的关键环节。传统的微调方法多依赖密集参数更新，假设模型参数在微调过程中呈现低秩或全参数变化。然而，近年来的研究发现，微调中的参数变化往往具有稀疏和谱集中等复杂结构，尤其是在策略性蒸馏（OPD）中。这种微调方式结合了在策略上采样的模型轨迹和密集的教师监督，旨在实现高效的知识转移和模型能力增强。本文系统分析了OPD的参数动态特征，揭示其稀疏性、几何结构和谱集中性，提供了理解大模型微调机制的新视角。

通过对多个模型（如Qwen、DeepScaleR、MiniCPM）在不同任务中的参数差异进行量化分析，发现OPD风格的参数更新在相对范数上极小（如Qwen3-1.7B仅为0.045%），且在参数坐标上高度稀疏（66.72%到89.50%的参数变化低于10^-5阈值）。尽管参数矩阵在数值上满秩（中位数接近100%），但谱能集中在少数奇异值（前16个奇异值能量占比约26.92%），显示谱集中特征。更新偏离源模型的主奇异空间，主要集中在源模型权重接近零的坐标上。这些结构特征表明，密集教师监督并未使OPD变成简单的全参数重写，而是保持了模型的几何签名。

实验还验证了子网络微调的有效性，发现只用OPD中发现的子网络即可几乎恢复完整模型的推理性能，验证了稀疏子网络的操作潜能。同时，比较AdamW与SGD优化器的表现，结果显示AdamW在微调中仍优于SGD，说明稀疏参数更新并不意味着可以舍弃自适应优化器。

这些发现不仅丰富了对大模型微调机制的理解，也为未来高效微调、模型压缩和子网络设计提供了理论基础。研究强调，策略性蒸馏在保持模型几何特征方面具有重要作用，未来可在多任务、多模型场景中推广应用，推动模型微调的理论与实践发展。

深度解读

原文摘要

On-policy distillation (\textsc{OPD}) has recently become a prominent post-training recipe as it combines two desirable ingredients: on-policy student trajectories and dense teacher supervision, yet how this hybrid changes a model's parameters remains unclear. Across several language and vision-language model pairs and use cases, our analysis yields two main findings. On sparsity, \textsc{OPD}-style updates are small and coordinate-sparse. They are distributed across layers and are usually FFN-heavy. This sparse structure is operationally useful: training only the discovered subnetwork recovers nearly the same performance as full \textsc{OPD}. However, the sparsity-inducing SGD optimizer underperforms AdamW in our optimizer ablation, likely because dense teacher supervision preserves heterogeneous coordinate-wise gradient scales where AdamW's adaptive scaling remains useful. On geometry, the updates are numerically full-rank but spectrally concentrated; they lie mostly away from the principal singular subspaces of the source weights and fall disproportionately on coordinates where the source weights are close to zero. These findings suggest that dense teacher supervision does not turn \textsc{OPD} into ordinary dense parameter rewriting; instead, \textsc{OPD} retains important geometric signatures of on-policy post-training.

cs.LG

参考文献 (20)

Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR

Chongyu Fan, Gaowen Liu, Mingyi Hong 等

2026 2 引用 ⭐ 高影响力查看解读 →

JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

Bingxiang He, Zekai Qu, Zeyuan Liu 等

2025 21 引用 ⭐ 高影响力查看解读 →

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Adam Suma, Sam Dauncey

2025 3835 引用 ⭐ 高影响力

Qwen3 Technical Report

An Yang, Anfeng Li, Baosong Yang 等

2025 5832 引用查看解读 →

Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

An Yang, Beichen Zhang, Binyuan Hui 等

2024 997 引用查看解读 →

On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes

Rishabh Agarwal, Nino Vieillard, Yongchao Zhou 等

2023 470 引用查看解读 →

LoRA: Low-Rank Adaptation of Large Language Models

J. Hu, Yelong Shen, Phillip Wallis 等

2021 19871 引用查看解读 →

A Survey of On-Policy Distillation for Large Language Models

Mingyang Song, Mao Zheng

2026 47 引用查看解读 →

RL's Razor: Why Online Reinforcement Learning Forgets Less

Idan Shenfeld, Jyothish Pari, Pulkit Agrawal

2025 117 引用查看解读 →

Decoupled Weight Decay Regularization

I. Loshchilov, F. Hutter

2017 34956 引用

On-Policy Context Distillation for Language Models

Tianzhu Ye, Li Dong, Xun Wu 等

2026 68 引用查看解读 →

OpenThoughts: Data Recipes for Reasoning Models

E. Guha, Ryan Marten, Sedrick Scott Keh 等

2025 172 引用查看解读 →

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Qiying Yu, Zheng Zhang, Ruofei Zhu 等

2025 2017 引用查看解读 →

Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks

Samy Bengio, O. Vinyals, N. Jaitly 等

2015 2350 引用查看解读 →

GLM-5: from Vibe Coding to Agentic Engineering

GLM-4.5 Team Aohan Zeng, Xin Lv, Zhenyu Hou 等

2026 175 引用查看解读 →

Do We Need Adam? Surprisingly Strong and Sparse Reinforcement Learning with SGD in LLMs

Sagnik Mukherjee, Lifan Yuan, Pavan Jayasinha 等

2026 4 引用查看解读 →

HybridFlow: A Flexible and Efficient RLHF Framework

Guangming Sheng, Chi Zhang, Zilingfeng Ye 等

2024 1851 引用查看解读 →

Inter-GPS: Interpretable Geometry Problem Solving with Formal Language and Symbolic Reasoning

Pan Lu, Ran Gong, Shibiao Jiang 等

2021 497 引用查看解读 →

Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe

Yaxuan Li, Yuxin Zuo, Bingxiang He 等

2026 67 引用查看解读 →

On Predictability of Reinforcement Learning Dynamics for Large Language Models

Yuchen Cai, Ding Cao, Xin Xu 等

2025 10 引用查看解读 →

Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度解读

原文摘要

参考文献 (20)

相关论文

Execution-State Capsules: Graph-Bound Execution-State Checkpoint and Restore for Low-Latency, Small-Batch, On-Device Physical-AI Serving

On the Oracle Complexity of Interpolation-Based Gradient Descent

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

Zero-Shot Active Feature Acquisition via LLM-Elicitation

Looped World Models

Kolmogorov Regression for Robust Diffusion Policies