From Layers to Submodules: Rethinking Granularity in Replacement-Based LLM Compression

TL;DR

提出SubFit方法,在LLM中以非连续子模块级别替换,显著提升压缩效果,25%稀疏下保持84.6%准确率。

cs.CL 🔴 高级 2026-06-02 76 次浏览
Elia Cunegatti Marcus Vukojevic Erik Nielsen Giovanni Iacca
LLM压缩 子模块替换 稀疏化 后训练微调 Transformer优化

核心发现

方法论

本文提出SubFit(子模块级拟合残差替换)方法,突破传统全层连续选择限制,采用非连续子模块选择策略。具体流程包括:• 以模型的Attention和FeedForward子模块为单位,基于残差贡献度进行打分,选择影响较小的子模块;• 利用校准数据,针对每个被移除的子模块,拟合低秩残差映射,构建轻量级的残差旁路;• 采用共享低秩基底,减少存储和计算成本;• 逐步进行子模块的非连续选择和残差拟合,最终实现模型压缩。该方法无需重新训练,仅依赖校准数据,兼顾模型性能和推理效率。

关键结果

  • 在十个不同的LLM(包括五个基础模型和五个指令调优模型)上测试,压缩比例从12.5%到37.5%,SubFit在整体困惑度(perplexity)与准确率的折中表现优于四个主流基线。在25%稀疏水平下,模型保持84.6%的下游任务准确率,困惑度仅增加2.42倍,而最强基线达到81.6%和4.34倍,表现出更优的压缩-性能平衡。
  • 在推理速度和KV缓存方面,SubFit实现了明显提升,25%稀疏下,推理时间的加速比达1.18到1.40倍,KV缓存节省比例相应提升,验证了其在实际部署中的潜力。
  • 消融实验显示,子模块非连续选择策略比传统连续层块剪枝具有更好的鲁棒性和稳定性,尤其在高压缩比下,模型性能的波动显著减小,说明该策略有效缓解了模型的性能退化问题。

研究意义

该研究突破了传统全层连续剪枝的限制,提出以子模块为单位的非连续选择策略,有效利用预训练Transformer中的冗余结构,极大地提升模型压缩效率。此方法不仅适用于大规模LLMs的部署优化,还为未来模型微调和剪枝提供了新的思路。其无需重新训练,仅依赖校准数据,降低了部署门槛,具有广泛的实际应用价值。同时,研究揭示了Attention与FeedForward子模块在冗余分布上的差异,为理解Transformer模型的内部机制提供了新的视角。

技术贡献

本文的核心技术贡献包括:• 提出SubFit(子模块残差拟合)框架,突破全层连续选择限制,实现非连续子模块选择;• 设计基于残差贡献度的打分机制,有效识别冗余子模块;• 利用低秩映射和共享基底,显著降低参数和计算成本;• 提出无需再训练的后训练微调方案,仅用校准数据即可完成模型压缩;• 在多个公开LLM(如Llama-3、Qwen系列)上验证,显示优异的性能-效率折中效果。

新颖性

该工作首次系统性提出在Transformer中以子模块为单位进行非连续选择和残差拟合,打破了以往基于连续层块的限制。不同于传统剪枝只删除完整层或连续块,SubFit通过低秩映射实现对被移除子模块的残差近似,兼顾模型性能和压缩比。这一创新不仅提升了压缩效率,也为模型内部冗余利用提供了新思路,具有较强的理论创新和工程应用潜力。

局限性

  • 该方法依赖校准数据,性能在极端压缩比例(超过37.5%)可能下降明显,且对不同任务的泛化能力尚需验证;
  • 低秩拟合假设在某些复杂子模块中可能不足,导致残差近似误差增加;
  • 在极大规模模型(如百亿参数以上)上的扩展仍面临计算和存储挑战,需进一步优化算法效率。

未来方向

未来可探索多任务、多模态场景下的子模块非连续选择策略,结合动态剪枝与微调技术,提升模型适应性。还可研究更复杂的残差拟合模型,如非线性映射,以进一步提升压缩效果。同时,结合硬件优化,推动该方法在实际边缘设备和云端部署中的应用,拓展其工业价值。

AI 总览摘要

在当今人工智能领域,大型语言模型(LLMs)以其卓越的性能成为核心技术,但其庞大的参数规模带来了极高的存储和计算成本。传统的模型压缩方法多依赖全层或连续块的剪枝策略,虽然能带来一定的推理加速,但在性能保持方面存在明显瓶颈。本文提出的SubFit(子模块级拟合残差替换)方法,突破了这一限制,采用非连续子模块选择策略,有效利用Transformer中的冗余结构,实现了更高比例的模型压缩,同时保持了较优的任务性能。

具体而言,SubFit以Attention和FeedForward子模块为单位,基于残差贡献度进行打分,选择影响较小的子模块进行移除。然后,利用校准数据,拟合每个被移除子模块的低秩残差映射,构建轻量级的残差旁路。这一过程无需重新训练模型,只需少量校准数据,便能实现模型的高效压缩。该方法的核心创新在于:• 采用非连续子模块选择策略,打破传统连续块限制;• 设计基于残差贡献的打分机制,有效识别冗余子模块;• 利用低秩映射和共享基底,显著降低参数和计算成本。

在多个公开LLM(如Llama-3、Qwen系列、DeepSeek)上进行的实验显示,压缩比例达到25%时,模型仍能保持84.6%的下游任务准确率,困惑度仅增加2.42倍,优于现有主流基线。同时,推理速度提升明显,25%稀疏模型的推理时间加速比达1.18到1.40倍,KV缓存节省比例显著。这些结果表明,SubFit不仅在性能-效率折中方面表现优异,还具备良好的实际部署潜力。

此外,消融实验验证了非连续选择策略的鲁棒性和稳定性,显示其在高压缩比下的优势。未来,结合硬件优化和多任务场景,SubFit有望推动大规模模型的高效部署,成为模型压缩和优化的重要工具。该研究为理解Transformer模型内部冗余提供了新视角,也为后训练微调和模型剪枝提供了新的技术路径。

深度解读

原文摘要

Post-training compression of Large Language Models (LLMs) removes entire architectural components, either deleting them or replacing them with fitted modules. Existing replacement-based methods share two design constraints: full-layer granularity and contiguous selection. We argue that this is overly restrictive: in fact, redundancy in pretrained transformers is not confined to contiguous regions, nor does it evenly distribute between Attention and FeedForward outputs, implying that different strategies best approximate different submodule types and that removable components need not cluster within contiguous depth ranges. Based on this intuition, we introduce SubFit (Submodule-level Fitted residual replacement), which compresses LLMs at the submodule level: Attention and FeedForward submodules are selected non-contiguously, and each receives its own lightweight fitted residual bypass. SubFit operates post-training and requires only calibration data. Across ten LLMs (five base, five instruction-tuned), five sparsity levels from 12.5% to 37.5%, and four replacement-based baselines, SubFit achieves the best aggregate perplexity-accuracy trade-off across the evaluated sparsity levels, with larger gains under aggressive compression. At 25% sparsity, it retains 84.6% of dense downstream accuracy and incurs 2.42x perplexity degradation, against 81.6% and 4.34x for the strongest baselines, while delivering measurable inference speedup and KV-cache savings. Code is available at https://github.com/eliacunegatti/SubFit.

cs.CL cs.AI

参考文献 (20)

SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Saleh Ashkboos, Maximilian L. Croci, Marcelo Gennari Do Nascimento 等

2024 372 引用 ⭐ 高影响力 查看解读 →

Training Verifiers to Solve Math Word Problems

K. Cobbe, Vineet Kosaraju, Mo Bavarian 等

2021 9032 引用 ⭐ 高影响力 查看解读 →

Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning

Mengzhou Xia, Tianyu Gao, Zhiyuan Zeng 等

2023 474 引用 查看解读 →

Measuring Massive Multitask Language Understanding

Dan Hendrycks, Collin Burns, Steven Basart 等

2020 8351 引用 查看解读 →

Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge

Peter Clark, Isaac Cowhey, Oren Etzioni 等

2018 4769 引用 查看解读 →

HellaSwag: Can a Machine Really Finish Your Sentence?

Rowan Zellers, Ari Holtzman, Yonatan Bisk 等

2019 4259 引用 查看解读 →

SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot

Elias Frantar, Dan Alistarh

2023 1299 引用 查看解读 →

An Adversarial Winograd Schema Challenge at Scale

Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula 等

2019 3199 引用

Crowdsourcing Multiple Choice Science Questions

Johannes Welbl, Nelson F. Liu, Matt Gardner

2017 841 引用 查看解读 →

BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions

Christopher Clark, Kenton Lee, Ming-Wei Chang 等

2019 2423 引用 查看解读 →

On the Limits of Layer Pruning for Generative Reasoning in LLMs

S. Shrestha, Anubhav Shrestha, Aadim Nepal 等

2026 1 引用

GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

Elias Frantar, Saleh Ashkboos, T. Hoefler 等

2022 2089 引用 查看解读 →

BlockPruner: Fine-grained Pruning for Large Language Models

Longguang Zhong, Fanqi Wan, Ruijun Chen 等

2024 28 引用 查看解读 →

GLU Variants Improve Transformer

Noam Shazeer

2020 1893 引用 查看解读 →

What Matters in Transformers? Not All Attention is Needed

Shwai He, Guoheng Sun, Zheyu Shen 等

2024 80 引用 查看解读 →

Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning

Armen Aghajanyan, Luke Zettlemoyer, Sonal Gupta

2020 881 引用 查看解读 →

MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms

Aida Amini, Saadia Gabriel, Shanchuan Lin 等

2019 859 引用 查看解读 →

Pointer Sentinel Mixture Models

Stephen Merity, Caiming Xiong, James Bradbury 等

2016 4094 引用 查看解读 →

Prune&Comp: Free Lunch for Layer-Pruned LLMs via Iterative Pruning with Magnitude Compensation

Xinrui Chen, Hongxin Zhang, Fanyi Zeng 等

2025 6 引用 查看解读 →

2SSP: A Two-Stage Framework for Structured Pruning of LLMs

Fabrizio Sandri, Elia Cunegatti, Giovanni Iacca

2025 7 引用 查看解读 →