核心发现
方法论
本文提出SubFit(子模块级拟合残差替换)方法,突破传统全层连续选择限制,采用非连续子模块选择策略。具体流程包括:• 以模型的Attention和FeedForward子模块为单位,基于残差贡献度进行打分,选择影响较小的子模块;• 利用校准数据,针对每个被移除的子模块,拟合低秩残差映射,构建轻量级的残差旁路;• 采用共享低秩基底,减少存储和计算成本;• 逐步进行子模块的非连续选择和残差拟合,最终实现模型压缩。该方法无需重新训练,仅依赖校准数据,兼顾模型性能和推理效率。
关键结果
- 在十个不同的LLM(包括五个基础模型和五个指令调优模型)上测试,压缩比例从12.5%到37.5%,SubFit在整体困惑度(perplexity)与准确率的折中表现优于四个主流基线。在25%稀疏水平下,模型保持84.6%的下游任务准确率,困惑度仅增加2.42倍,而最强基线达到81.6%和4.34倍,表现出更优的压缩-性能平衡。
- 在推理速度和KV缓存方面,SubFit实现了明显提升,25%稀疏下,推理时间的加速比达1.18到1.40倍,KV缓存节省比例相应提升,验证了其在实际部署中的潜力。
- 消融实验显示,子模块非连续选择策略比传统连续层块剪枝具有更好的鲁棒性和稳定性,尤其在高压缩比下,模型性能的波动显著减小,说明该策略有效缓解了模型的性能退化问题。
研究意义
该研究突破了传统全层连续剪枝的限制,提出以子模块为单位的非连续选择策略,有效利用预训练Transformer中的冗余结构,极大地提升模型压缩效率。此方法不仅适用于大规模LLMs的部署优化,还为未来模型微调和剪枝提供了新的思路。其无需重新训练,仅依赖校准数据,降低了部署门槛,具有广泛的实际应用价值。同时,研究揭示了Attention与FeedForward子模块在冗余分布上的差异,为理解Transformer模型的内部机制提供了新的视角。
技术贡献
本文的核心技术贡献包括:• 提出SubFit(子模块残差拟合)框架,突破全层连续选择限制,实现非连续子模块选择;• 设计基于残差贡献度的打分机制,有效识别冗余子模块;• 利用低秩映射和共享基底,显著降低参数和计算成本;• 提出无需再训练的后训练微调方案,仅用校准数据即可完成模型压缩;• 在多个公开LLM(如Llama-3、Qwen系列)上验证,显示优异的性能-效率折中效果。
新颖性
该工作首次系统性提出在Transformer中以子模块为单位进行非连续选择和残差拟合,打破了以往基于连续层块的限制。不同于传统剪枝只删除完整层或连续块,SubFit通过低秩映射实现对被移除子模块的残差近似,兼顾模型性能和压缩比。这一创新不仅提升了压缩效率,也为模型内部冗余利用提供了新思路,具有较强的理论创新和工程应用潜力。
局限性
- 该方法依赖校准数据,性能在极端压缩比例(超过37.5%)可能下降明显,且对不同任务的泛化能力尚需验证;
- 低秩拟合假设在某些复杂子模块中可能不足,导致残差近似误差增加;
- 在极大规模模型(如百亿参数以上)上的扩展仍面临计算和存储挑战,需进一步优化算法效率。
未来方向
未来可探索多任务、多模态场景下的子模块非连续选择策略,结合动态剪枝与微调技术,提升模型适应性。还可研究更复杂的残差拟合模型,如非线性映射,以进一步提升压缩效果。同时,结合硬件优化,推动该方法在实际边缘设备和云端部署中的应用,拓展其工业价值。
AI 总览摘要
在当今人工智能领域,大型语言模型(LLMs)以其卓越的性能成为核心技术,但其庞大的参数规模带来了极高的存储和计算成本。传统的模型压缩方法多依赖全层或连续块的剪枝策略,虽然能带来一定的推理加速,但在性能保持方面存在明显瓶颈。本文提出的SubFit(子模块级拟合残差替换)方法,突破了这一限制,采用非连续子模块选择策略,有效利用Transformer中的冗余结构,实现了更高比例的模型压缩,同时保持了较优的任务性能。
具体而言,SubFit以Attention和FeedForward子模块为单位,基于残差贡献度进行打分,选择影响较小的子模块进行移除。然后,利用校准数据,拟合每个被移除子模块的低秩残差映射,构建轻量级的残差旁路。这一过程无需重新训练模型,只需少量校准数据,便能实现模型的高效压缩。该方法的核心创新在于:• 采用非连续子模块选择策略,打破传统连续块限制;• 设计基于残差贡献的打分机制,有效识别冗余子模块;• 利用低秩映射和共享基底,显著降低参数和计算成本。
在多个公开LLM(如Llama-3、Qwen系列、DeepSeek)上进行的实验显示,压缩比例达到25%时,模型仍能保持84.6%的下游任务准确率,困惑度仅增加2.42倍,优于现有主流基线。同时,推理速度提升明显,25%稀疏模型的推理时间加速比达1.18到1.40倍,KV缓存节省比例显著。这些结果表明,SubFit不仅在性能-效率折中方面表现优异,还具备良好的实际部署潜力。
此外,消融实验验证了非连续选择策略的鲁棒性和稳定性,显示其在高压缩比下的优势。未来,结合硬件优化和多任务场景,SubFit有望推动大规模模型的高效部署,成为模型压缩和优化的重要工具。该研究为理解Transformer模型内部冗余提供了新视角,也为后训练微调和模型剪枝提供了新的技术路径。
深度解读
原文摘要
Post-training compression of Large Language Models (LLMs) removes entire architectural components, either deleting them or replacing them with fitted modules. Existing replacement-based methods share two design constraints: full-layer granularity and contiguous selection. We argue that this is overly restrictive: in fact, redundancy in pretrained transformers is not confined to contiguous regions, nor does it evenly distribute between Attention and FeedForward outputs, implying that different strategies best approximate different submodule types and that removable components need not cluster within contiguous depth ranges. Based on this intuition, we introduce SubFit (Submodule-level Fitted residual replacement), which compresses LLMs at the submodule level: Attention and FeedForward submodules are selected non-contiguously, and each receives its own lightweight fitted residual bypass. SubFit operates post-training and requires only calibration data. Across ten LLMs (five base, five instruction-tuned), five sparsity levels from 12.5% to 37.5%, and four replacement-based baselines, SubFit achieves the best aggregate perplexity-accuracy trade-off across the evaluated sparsity levels, with larger gains under aggressive compression. At 25% sparsity, it retains 84.6% of dense downstream accuracy and incurs 2.42x perplexity degradation, against 81.6% and 4.34x for the strongest baselines, while delivering measurable inference speedup and KV-cache savings. Code is available at https://github.com/eliacunegatti/SubFit.
参考文献 (20)
SliceGPT: Compress Large Language Models by Deleting Rows and Columns
Saleh Ashkboos, Maximilian L. Croci, Marcelo Gennari Do Nascimento 等
Training Verifiers to Solve Math Word Problems
K. Cobbe, Vineet Kosaraju, Mo Bavarian 等
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning
Mengzhou Xia, Tianyu Gao, Zhiyuan Zeng 等
Measuring Massive Multitask Language Understanding
Dan Hendrycks, Collin Burns, Steven Basart 等
Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge
Peter Clark, Isaac Cowhey, Oren Etzioni 等
HellaSwag: Can a Machine Really Finish Your Sentence?
Rowan Zellers, Ari Holtzman, Yonatan Bisk 等
SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot
Elias Frantar, Dan Alistarh
An Adversarial Winograd Schema Challenge at Scale
Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula 等
Crowdsourcing Multiple Choice Science Questions
Johannes Welbl, Nelson F. Liu, Matt Gardner
BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions
Christopher Clark, Kenton Lee, Ming-Wei Chang 等
On the Limits of Layer Pruning for Generative Reasoning in LLMs
S. Shrestha, Anubhav Shrestha, Aadim Nepal 等
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers
Elias Frantar, Saleh Ashkboos, T. Hoefler 等
BlockPruner: Fine-grained Pruning for Large Language Models
Longguang Zhong, Fanqi Wan, Ruijun Chen 等
What Matters in Transformers? Not All Attention is Needed
Shwai He, Guoheng Sun, Zheyu Shen 等
Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning
Armen Aghajanyan, Luke Zettlemoyer, Sonal Gupta
MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms
Aida Amini, Saadia Gabriel, Shanchuan Lin 等
Prune&Comp: Free Lunch for Layer-Pruned LLMs via Iterative Pruning with Magnitude Compensation
Xinrui Chen, Hongxin Zhang, Fanyi Zeng 等
2SSP: A Two-Stage Framework for Structured Pruning of LLMs
Fabrizio Sandri, Elia Cunegatti, Giovanni Iacca