Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks

TL;DR

提出交替梯度流效用(AGF),在ImageNet-1K上实现75%压缩时避免结构崩溃。

cs.CV 🔴 高级 2026-03-13 2 次浏览
Tianhao Qian Zhuoxuan Li Jinde Cao Xinli Shi Hanjie Liu Leszek Rutkowski
深度学习 结构剪枝 动态路由 视觉网络 梯度流

核心发现

方法论

本文提出了一种基于交替梯度流(AGF)的解耦动能范式,用于深度网络的结构剪枝和动态路由。通过绝对特征空间的泰勒展开,AGF能够精确捕捉网络的结构“动能效用”,从而在极端稀疏性下保持基线功能并展现拓扑隐式正则化。

关键结果

  • 在ImageNet-1K上进行75%压缩压力测试时,AGF有效避免了传统度量方法下的结构崩溃,传统方法在此条件下表现甚至低于随机采样。
  • 在ImageNet-100上进行动态推理时,AGF引导的混合路由框架实现了帕累托最优效率,减少了重专家的使用约50%,而未牺牲全模型的准确性。
  • 在极端稀疏性下,AGF成功避免了从头训练模型时的崩溃,展示了拓扑隐式正则化。

研究意义

该研究在学术界和工业界具有重要意义。它解决了深度视觉网络结构剪枝中传统度量方法的幅度偏差问题,并通过AGF提供了一种新的视角来理解和优化网络的结构动能效用。这一方法不仅提高了模型的压缩效率,还为动态路由提供了更为精确的信号指导。

技术贡献

技术贡献包括提出了一种新的解耦动能范式,利用交替梯度流(AGF)来捕捉网络的结构动能效用。与现有的SOTA方法相比,AGF在极端稀疏性下展示了更好的拓扑隐式正则化能力,并通过混合路由框架实现了动态推理的帕累托最优效率。

新颖性

本研究首次将交替梯度流(AGF)应用于深度网络的结构剪枝和动态路由。与现有的幅度和梯度基方法相比,AGF能够更好地捕捉网络的结构动能效用,避免了幅度偏差问题。

局限性

  • AGF在校准阶段需要进行反向传播,导致比仅前向度量更高的离线计算开销。
  • 在极端压缩条件下,所有静态代理都达到了性能上限,表明需要混合路由策略。

未来方向

未来的研究方向包括进一步优化AGF的计算效率,探索其在其他网络架构中的应用,以及开发更为高效的动态路由策略,以应对极端稀疏性下的性能瓶颈。

AI 总览摘要

在深度学习中,结构剪枝和动态路由是提高模型效率的关键技术。然而,现有的静态度量方法如权重幅度或激活感知在结构剪枝中存在幅度偏差问题,无法保留关键的功能路径。

为了解决这一问题,本文提出了一种基于交替梯度流(AGF)的解耦动能范式。AGF通过绝对特征空间的泰勒展开,精确捕捉网络的结构“动能效用”,从而在极端稀疏性下保持基线功能并展现拓扑隐式正则化。

在实验中,AGF在ImageNet-1K上进行75%压缩压力测试时,成功避免了传统度量方法下的结构崩溃。传统方法在此条件下表现甚至低于随机采样,而AGF则有效保持了网络的功能完整性。

此外,在ImageNet-100上进行动态推理时,AGF引导的混合路由框架实现了帕累托最优效率,减少了重专家的使用约50%,而未牺牲全模型的准确性。这一结果表明,AGF能够在动态信号压缩的情况下提供更为精确的信号指导。

然而,AGF在校准阶段需要进行反向传播,导致比仅前向度量更高的离线计算开销。此外,在极端压缩条件下,所有静态代理都达到了性能上限,表明需要混合路由策略。未来的研究方向包括进一步优化AGF的计算效率,探索其在其他网络架构中的应用。

深度分析

研究背景

深度学习的效率提升一直是研究的热点,尤其是在计算资源有限的情况下。结构剪枝和动态路由是两种主要的优化策略。传统的剪枝方法多依赖于权重幅度或激活感知度量,如Wanda和RIA。然而,这些方法在处理深度视觉网络的结构剪枝时,常常因幅度偏差而无法保留关键的功能路径。近年来,交替梯度流(AGF)被提出作为一种新的视角来理解和优化网络的结构动能效用。

核心问题

在深度视觉网络的结构剪枝中,传统的静态度量方法存在幅度偏差问题,无法保留关键的功能路径。这一问题在极端稀疏性下尤为明显,导致模型性能大幅下降。解决这一问题对于提高模型的压缩效率和动态路由的精确性至关重要。

核心创新

本文的核心创新在于提出了一种基于交替梯度流(AGF)的解耦动能范式。• AGF通过绝对特征空间的泰勒展开,精确捕捉网络的结构“动能效用”。• 在极端稀疏性下,AGF能够保持基线功能并展现拓扑隐式正则化。• AGF引导的混合路由框架在动态推理中实现了帕累托最优效率。

方法详解

  • �� 使用交替梯度流(AGF)进行结构剪枝,捕捉网络的结构动能效用。• 通过绝对特征空间的泰勒展开,避免幅度偏差问题。• 在ImageNet-1K上进行75%压缩压力测试,验证AGF的有效性。• 在ImageNet-100上进行动态推理,测试混合路由框架的效率。

实验设计

实验在ImageNet-1K和ImageNet-100上进行,使用ResNet和ViT等网络架构。• 在ImageNet-1K上进行75%压缩压力测试,比较AGF与传统度量方法的性能。• 在ImageNet-100上进行动态推理,测试混合路由框架的效率。• 关键超参数包括压缩率和动态路由策略。

结果分析

实验结果表明,AGF在极端稀疏性下能够有效避免结构崩溃。• 在ImageNet-1K上进行75%压缩时,AGF的性能优于传统度量方法。• 在ImageNet-100上进行动态推理时,AGF引导的混合路由框架实现了帕累托最优效率。

应用场景

AGF可用于深度视觉网络的结构剪枝和动态路由,适用于资源受限的场景。• 在自动驾驶和实时图像处理等领域,AGF能够提高模型的效率和精确性。• 其混合路由框架可用于需要动态推理的应用。

局限与展望

AGF在校准阶段需要进行反向传播,导致比仅前向度量更高的离线计算开销。• 在极端压缩条件下,所有静态代理都达到了性能上限,表明需要混合路由策略。• 未来的研究方向包括进一步优化AGF的计算效率,探索其在其他网络架构中的应用。

通俗解读 非专业人士也能看懂

想象一下,一个工厂需要在有限的资源下生产尽可能多的产品。传统的方法是根据机器的大小来决定哪些机器可以停用,但这可能会忽略一些小机器的关键作用。交替梯度流(AGF)就像是一个聪明的工厂经理,他不仅看机器的大小,还会观察每台机器在生产过程中对整体效率的贡献。这样,即使是一台小机器,只要它对生产有重要贡献,就不会被停用。AGF通过这种方式,确保在资源有限的情况下,工厂仍能高效运作。而在需要快速调整生产线时,AGF也能提供精准的指导,确保生产的灵活性和效率。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!想象一下你在玩一个超级复杂的游戏,你需要在有限的时间内完成任务。传统的方法是根据任务的难度来决定哪些任务可以跳过,但这可能会忽略一些小任务的重要性。交替梯度流(AGF)就像是你的游戏助手,它不仅看任务的难度,还会观察每个任务在完成过程中对整体进度的贡献。这样,即使是一个小任务,只要它对完成游戏有重要贡献,就不会被跳过。AGF通过这种方式,确保在时间有限的情况下,你仍能高效完成游戏。而在需要快速调整策略时,AGF也能提供精准的指导,确保游戏的灵活性和效率。

术语表

交替梯度流 (Alternating Gradient Flow)

一种用于捕捉网络结构动能效用的框架,通过绝对特征空间的泰勒展开来避免幅度偏差。

用于深度网络的结构剪枝和动态路由。

结构剪枝 (Structural Pruning)

通过移除网络中冗余的结构来提高模型效率的技术。

在深度视觉网络中应用以减少计算开销。

动态路由 (Dynamic Routing)

根据输入复杂性有条件地跳过计算,以优化效率的技术。

用于提高深度网络的推理效率。

动能效用 (Kinetic Utility)

网络在优化过程中对整体损失减少的贡献度量。

用于评估网络结构的重要性。

拓扑隐式正则化 (Topological Implicit Regularization)

通过保持网络的拓扑结构来避免模型崩溃的技术。

在极端稀疏性下应用以提高模型的稳定性。

幅度偏差 (Magnitude Bias)

传统度量方法中因过度依赖权重幅度而导致的偏差。

在结构剪枝中导致关键功能路径的丢失。

混合路由框架 (Hybrid Routing Framework)

结合AGF引导的离线结构搜索和基于零成本物理先验的在线执行的框架。

用于提高动态推理的效率。

稀疏瓶颈 (Sparsity Bottleneck)

在极端稀疏性下,所有静态代理都达到性能上限的现象。

需要混合路由策略来解决。

零成本物理先验 (Zero-Cost Physical Priors)

用于在线执行的无需额外计算开销的物理先验。

在混合路由框架中用于动态推理。

特征空间泰勒展开 (Feature-Space Taylor Expansion)

用于捕捉网络结构动能效用的数学工具。

在AGF中用于避免幅度偏差。

开放问题 这项研究留下的未解疑问

  • 1 如何在不增加计算开销的情况下提高AGF的校准效率?目前的方法需要在校准阶段进行反向传播,这导致了较高的离线计算开销。需要开发新的方法来降低这一成本。
  • 2 在其他网络架构中,AGF的有效性如何?目前的研究主要集中在深度视觉网络上,尚不清楚AGF在其他类型的网络中是否同样有效。
  • 3 如何在极端稀疏性下进一步提高模型的稳定性?虽然AGF在一定程度上解决了这一问题,但在极端条件下,所有静态代理仍然达到了性能上限。
  • 4 能否开发出更为高效的动态路由策略,以应对极端稀疏性下的性能瓶颈?目前的混合路由框架虽然有效,但仍有改进空间。
  • 5 在AGF的基础上,是否可以开发出新的度量方法,以进一步提高结构剪枝的精确性?现有的方法在某些情况下仍存在幅度偏差问题。

应用场景

近期应用

自动驾驶

AGF可用于优化自动驾驶系统中的深度视觉网络,提高实时图像处理的效率和精确性。

实时图像处理

在需要快速响应的图像处理任务中,AGF能够提供更为精确的信号指导,提高处理效率。

资源受限的设备

在计算资源有限的设备上,AGF可以通过结构剪枝和动态路由来提高深度网络的效率。

远期愿景

通用人工智能

通过提高深度网络的效率和灵活性,AGF有望在未来推动通用人工智能的发展。

智能城市

AGF的应用可以提高城市中各种智能系统的效率,从而推动智能城市的建设。

原文摘要

Efficient deep learning traditionally relies on static heuristics like weight magnitude or activation awareness (e.g., Wanda, RIA). While successful in unstructured settings, we observe a critical limitation when applying these metrics to the structural pruning of deep vision networks. These contemporary metrics suffer from a magnitude bias, failing to preserve critical functional pathways. To overcome this, we propose a decoupled kinetic paradigm inspired by Alternating Gradient Flow (AGF), utilizing an absolute feature-space Taylor expansion to accurately capture the network's structural "kinetic utility". First, we uncover a topological phase transition at extreme sparsity, where AGF successfully preserves baseline functionality and exhibits topological implicit regularization, avoiding the collapse seen in models trained from scratch. Second, transitioning to architectures without strict structural priors, we reveal a phenomenon of Sparsity Bottleneck in Vision Transformers (ViTs). Through a gradient-magnitude decoupling analysis, we discover that dynamic signals suffer from signal compression in converged models, rendering them suboptimal for real-time routing. Finally, driven by these empirical constraints, we design a hybrid routing framework that decouples AGF-guided offline structural search from online execution via zero-cost physical priors. We validate our paradigm on large-scale benchmarks: under a 75% compression stress test on ImageNet-1K, AGF effectively avoids the structural collapse where traditional metrics aggressively fall below random sampling. Furthermore, when systematically deployed for dynamic inference on ImageNet-100, our hybrid approach achieves Pareto-optimal efficiency. It reduces the usage of the heavy expert by approximately 50% (achieving an estimated overall cost of 0.92$\times$) without sacrificing the full-model accuracy.

cs.CV cs.LG cs.NE

参考文献 (20)

MDP: Multidimensional Vision Model Pruning with Latency Constraint

Xinglong Sun, Barath Lakshmanan, Maying Shen 等

2025 4 引用 查看解读 →

Second Order Derivatives for Network Pruning: Optimal Brain Surgeon

B. Hassibi, D. Stork

1992 2091 引用

Importance Estimation for Neural Network Pruning

Pavlo Molchanov, Arun Mallya, Stephen Tyree 等

2019 1092 引用 查看解读 →

Omnigrok: Grokking Beyond Algorithmic Data

Ziming Liu, Eric J. Michaud, Max Tegmark

2022 121 引用 查看解读 →

Pruning Filters for Efficient ConvNets

Hao Li, Asim Kadav, Igor Durdanovic 等

2016 4013 引用 查看解读 →

SNIP: Single-shot Network Pruning based on Connection Sensitivity

Namhoon Lee, Thalaiyasingam Ajanthan, Philip H. S. Torr

2018 1413 引用 查看解读 →

On Calibration of Modern Neural Networks

Chuan Guo, Geoff Pleiss, Yu Sun 等

2017 7404 引用 查看解读 →

DepGraph: Towards Any Structural Pruning

Gongfan Fang, Xinyin Ma, Mingli Song 等

2023 458 引用 查看解读 →

Picking Winning Tickets Before Training by Preserving Gradient Flow

Chaoqi Wang, Chaoqi Wang, Guodong Zhang 等

2020 729 引用 查看解读 →

Batch-shaping for learning conditional channel gated networks

B. Bejnordi, Tijmen Blankevoort, M. Welling

2019 82 引用 查看解读 →

Exact solutions to the nonlinear dynamics of learning in deep linear neural networks

Andrew M. Saxe, James L. McClelland, S. Ganguli

2013 2017 引用 查看解读 →

Optimal Brain Damage

Yann LeCun, J. Denker, S. Solla

1989 5187 引用

Deep double descent: where bigger models and more data hurt

Preetum Nakkiran, Gal Kaplun, Yamini Bansal 等

2019 1081 引用 查看解读 →

Channel Pruning for Accelerating Very Deep Neural Networks

Yihui He, Xiangyu Zhang, Jian Sun

2017 2722 引用 查看解读 →

SkipNet: Learning Dynamic Routing in Convolutional Networks

Xin Wang, F. Yu, Zi-Yi Dou 等

2017 718 引用 查看解读 →

Wanda++: Pruning Large Language Models via Regional Gradients

Yifan Yang, Kai Zhen, Bhavana Ganesh 等

2025 19 引用 查看解读 →

Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity

Lu Yin, You Wu, Zhenyu (Allen) Zhang 等

2023 160 引用 查看解读 →

Dynamic Convolution: Attention Over Convolution Kernels

Yinpeng Chen, Xiyang Dai, Mengchen Liu 等

2019 1237 引用 查看解读 →

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

W. Fedus, Barret Zoph, Noam Shazeer

2021 3450 引用 查看解读 →

WoodFisher: Efficient Second-Order Approximation for Neural Network Compression

Sidak Pal Singh, Dan Alistarh

2020 193 引用