ZO-SAM: Zero-Order Sharpness-Aware Minimization for Efficient Sparse Training

TL;DR

ZO-SAM通过零阶优化减少计算开销，提高稀疏训练的效率和鲁棒性。

cs.LG 🔴 高级 2026-03-14 1 次浏览

Jie Ji Gen Li Kaiyuan Deng Fatemeh Afghah Xiaolong Ma

深度学习稀疏训练零阶优化鲁棒性计算效率

核心发现

方法论

本文提出了一种新的优化框架ZO-SAM，将零阶优化与Sharpness-Aware Minimization (SAM)相结合。与传统的SAM不同，ZO-SAM在扰动过程中仅需一次反向传播，并利用零阶梯度估计，从而将计算成本降低了一半。这种方法通过识别平坦的极小值来稳定训练过程，加速收敛，特别适用于稀疏训练场景。

关键结果

在CIFAR-10和CIFAR-100数据集上，使用ZO-SAM的模型在90%、95%和98%的稀疏率下分别提高了0.38%到2.54%的准确率。具体来说，在ResNet-32上，ZO-SAM在CIFAR-10数据集上的准确率提升了0.38%到2.31%，在CIFAR-100数据集上的提升为0.45%到2.54%。
在ImageNet-1K数据集上，使用DeiT-Tiny和DeiT-Small架构进行的实验表明，ZO-SAM在50%和70%的稀疏率下分别提高了准确率，最大提升达到1.17%。
ZO-SAM在CIFAR-10-C数据集上的鲁棒性测试中表现优异，显著提高了模型在分布偏移下的准确率，证明了其在实际部署中的潜力。

研究意义

ZO-SAM在学术界和工业界都具有重要意义。它解决了高稀疏率下梯度信号混乱的问题，提高了模型的收敛性和泛化能力。此外，ZO-SAM在计算资源受限的环境中表现出色，降低了计算成本，使得在边缘设备和移动应用中部署深度学习模型成为可能。

技术贡献

ZO-SAM的技术贡献在于其创新性地将零阶优化引入SAM框架中，减少了计算开销并提高了训练稳定性。与现有的稀疏训练方法相比，ZO-SAM在保持模型性能的同时显著降低了计算需求，为稀疏训练提供了一种更高效的解决方案。

新颖性

ZO-SAM首次将零阶优化与SAM结合，提出了一种在稀疏训练中更加高效的优化方法。与以往的方法相比，ZO-SAM在扰动步骤中使用零阶梯度估计，减少了计算开销，同时保持了SAM的平坦极小值识别能力。

局限性

ZO-SAM在极高稀疏率下可能仍然面临梯度估计不准确的问题，这可能影响模型的最终性能。
虽然ZO-SAM降低了计算成本，但在某些情况下仍需要额外的超参数调优以达到最佳性能。
在特定的深度学习架构中，ZO-SAM的适用性和效果可能需要进一步验证。

未来方向

未来的研究方向包括探索ZO-SAM在其他深度学习架构中的适用性，以及在更大规模的数据集上的表现。此外，进一步优化零阶梯度估计的精度和效率也是一个重要的研究方向。

AI 总览摘要

深度学习模型在许多领域取得了显著的成就，但其高昂的计算成本和内存需求限制了在资源受限环境中的应用。稀疏神经网络通过大幅减少参数数量和计算开销，提供了一种有吸引力的解决方案。然而，现有的稀疏训练方法常常面临梯度信号混乱的问题，特别是在高稀疏率下，严重阻碍了收敛性和泛化性能。为了解决这一关键挑战，本文提出了零阶锐度感知最小化（ZO-SAM），这是一种将零阶优化策略性地整合到SAM方法中的创新优化框架。与传统的SAM不同，ZO-SAM在扰动过程中仅需一次反向传播，选择性地利用零阶梯度估计。这种创新方法将反向传播的计算成本降低了一半，显著降低了梯度方差，有效消除了相关的计算开销。通过利用SAM识别平坦极小值的能力，ZO-SAM稳定了训练过程并加速了收敛。这些效率提升在稀疏训练场景中特别重要，因为计算成本是限制SAM实用性的主要瓶颈。此外，使用ZO-SAM训练的模型在分布偏移下表现出更好的鲁棒性，进一步拓宽了其在实际部署中的实用性。

在实验中，我们在CIFAR-10和CIFAR-100数据集上对ResNet-32和ResNet-50进行了测试，结果表明，ZO-SAM在不同的稀疏率下显著提高了准确率。在ImageNet-1K数据集上，使用DeiT-Tiny和DeiT-Small架构进行的实验也显示了ZO-SAM的优越性能。ZO-SAM不仅提高了模型的准确率，还在分布偏移下表现出色，证明了其在实际应用中的潜力。

尽管ZO-SAM在许多方面表现出色，但在极高稀疏率下可能仍然面临梯度估计不准确的问题。此外，虽然ZO-SAM降低了计算成本，但在某些情况下仍需要额外的超参数调优以达到最佳性能。在特定的深度学习架构中，ZO-SAM的适用性和效果可能需要进一步验证。

未来的研究方向包括探索ZO-SAM在其他深度学习架构中的适用性，以及在更大规模的数据集上的表现。此外，进一步优化零阶梯度估计的精度和效率也是一个重要的研究方向。通过这些努力，ZO-SAM有望在更广泛的应用场景中发挥更大的作用。

深度分析

研究背景

深度学习在过去十年中取得了显著的进展，尤其是在计算机视觉、自然语言处理和语音识别等领域。然而，这些模型通常需要大量的计算资源和内存，这在资源受限的环境中，例如边缘设备和移动应用中，成为了一个主要障碍。为了应对这一挑战，研究人员提出了稀疏神经网络，这些网络通过保持一小部分活跃权重来大幅减少参数数量和计算成本。尽管稀疏训练在理论上具有吸引力，但在实践中仍然面临许多挑战，特别是在高稀疏率下，梯度信号的混乱和噪声严重影响了模型的收敛性和泛化性能。

核心问题

稀疏训练的核心问题在于如何在高稀疏率下保持模型的收敛性和泛化能力。现有的方法通常依赖于启发式或特定的度量策略，这些策略在高稀疏率下会导致梯度信号的混乱，进而影响模型的性能。此外，随着稀疏率的增加，损失表面从平滑、宽广的盆地转变为陡峭、狭窄的地形，这进一步加剧了梯度的不稳定性，使得有效的梯度下降变得更加困难。

核心创新

本文的核心创新在于提出了一种新的优化框架ZO-SAM，将零阶优化与Sharpness-Aware Minimization (SAM)相结合。具体来说，ZO-SAM在扰动过程中仅需一次反向传播，并利用零阶梯度估计，从而将计算成本降低了一半。这种方法通过识别平坦的极小值来稳定训练过程，加速收敛，特别适用于稀疏训练场景。此外，ZO-SAM在分布偏移下表现出色，证明了其在实际应用中的潜力。

方法详解

�� ZO-SAM框架通过将零阶优化整合到SAM中，减少了计算开销。
�� 在扰动步骤中，ZO-SAM使用随机梯度估计（RGE）来近似梯度，而不是传统的坐标梯度估计（CGE），从而减少了计算成本。
�� 在梯度更新步骤中，ZO-SAM保持使用精确的一阶梯度，以确保训练的稳定性和收敛性。
�� 通过这种选择性整合，ZO-SAM在保持SAM识别平坦极小值能力的同时，显著降低了计算开销。

实验设计

我们在CIFAR-10和CIFAR-100数据集上对ResNet-32和ResNet-50进行了测试，并在ImageNet-1K数据集上使用DeiT-Tiny和DeiT-Small架构进行了实验。实验中，我们比较了ZO-SAM与现有的稀疏训练方法，如SNIP、GraSP、SET、DSR和RigL的性能。我们还进行了消融研究，以验证ZO-SAM在不同稀疏率下的效果。

结果分析

实验结果表明，ZO-SAM在不同的稀疏率下显著提高了模型的准确率。在CIFAR-10和CIFAR-100数据集上，使用ZO-SAM的模型在90%、95%和98%的稀疏率下分别提高了0.38%到2.54%的准确率。在ImageNet-1K数据集上，使用DeiT-Tiny和DeiT-Small架构进行的实验也显示了ZO-SAM的优越性能。此外，ZO-SAM在CIFAR-10-C数据集上的鲁棒性测试中表现优异，显著提高了模型在分布偏移下的准确率。

应用场景

ZO-SAM在计算资源受限的环境中具有广泛的应用潜力。它可以用于边缘设备和移动应用中，以减少计算成本和内存需求。此外，ZO-SAM在分布偏移下表现出的鲁棒性使其适用于需要高可靠性的实际部署场景，例如自动驾驶和医疗诊断。

局限与展望

尽管ZO-SAM在许多方面表现出色，但在极高稀疏率下可能仍然面临梯度估计不准确的问题。此外，虽然ZO-SAM降低了计算成本，但在某些情况下仍需要额外的超参数调优以达到最佳性能。在特定的深度学习架构中，ZO-SAM的适用性和效果可能需要进一步验证。未来的研究方向包括探索ZO-SAM在其他深度学习架构中的适用性，以及在更大规模的数据集上的表现。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。传统的深度学习就像是用所有的食材做一顿大餐，虽然美味，但需要很多食材和时间。而稀疏训练就像是用有限的食材做出同样美味的菜肴。ZO-SAM就像是一个聪明的厨师，它知道如何用最少的食材做出最美味的菜肴。它通过一种叫做零阶优化的方法，只需要一次尝试就能找到最佳的调味料组合，而不是反复尝试。这不仅节省了时间，还减少了浪费。想象一下，你只需一次就能找到完美的盐和胡椒比例，而不是每次都要重新调整。ZO-SAM就是这样一个聪明的厨师，它能在保持菜肴美味的同时，减少食材的使用和浪费。

简单解释像给14岁少年讲一样

嘿，小伙伴们！你们知道吗，训练一个AI模型就像是在玩一个超级复杂的拼图游戏。传统的方法需要用很多很多的拼图块才能完成这个游戏，但这需要很多时间和精力。想象一下，如果我们可以用更少的拼图块完成同样的游戏，那该多好啊！这就是稀疏训练的目标。而ZO-SAM就像是一个超级聪明的拼图高手，它知道如何用最少的拼图块完成游戏。它使用了一种叫做零阶优化的技巧，只需要一次尝试就能找到最佳的拼图组合，而不是反复尝试。这不仅节省了时间，还让游戏变得更加有趣！所以，ZO-SAM就像是一个超级聪明的拼图高手，它能在保持游戏乐趣的同时，减少拼图块的使用和浪费。是不是很酷呢？

术语表

零阶优化 (Zero-Order Optimization)

一种不需要显式梯度计算的优化方法，通过直接评估函数来估计梯度，适用于计算成本高或不可行的场景。

在ZO-SAM中用于减少计算开销。

锐度感知最小化 (Sharpness-Aware Minimization, SAM)

一种通过引导模型找到平坦极小值来提高泛化能力的优化技术。

在ZO-SAM中用于稳定训练过程。

稀疏训练 (Sparse Training)

一种通过保持小部分活跃权重来减少参数数量和计算成本的训练方法。

ZO-SAM的主要应用场景。

梯度方差 (Gradient Variance)

梯度更新中的波动程度，高梯度方差可能导致训练不稳定。

ZO-SAM通过减少梯度方差来提高训练稳定性。

分布偏移 (Distribution Shift)

测试数据与训练数据分布不一致的情况，可能导致模型性能下降。

ZO-SAM在分布偏移下表现出色。

随机梯度估计 (Random Gradient Estimation, RGE)

一种通过平均方向有限差分来估计梯度的方法，减少了计算成本。

在ZO-SAM中用于近似梯度。

坐标梯度估计 (Coordinate-wise Gradient Estimation, CGE)

一种通过沿每个坐标轴评估扰动来估计梯度的方法，计算成本较高。

与RGE相比，ZO-SAM选择使用RGE。

损失表面 (Loss Surface)

模型参数空间中的损失函数形状，影响模型的训练和泛化能力。

ZO-SAM通过识别平坦极小值来优化损失表面。

反向传播 (Backpropagation)

一种通过计算梯度来更新神经网络权重的算法。

ZO-SAM通过减少反向传播次数来降低计算成本。

超参数调优 (Hyperparameter Tuning)

调整模型参数以提高性能的过程，通常需要大量计算资源。

ZO-SAM在某些情况下仍需要超参数调优。

开放问题这项研究留下的未解疑问

1 ZO-SAM在极高稀疏率下的梯度估计精度仍需进一步研究。目前的零阶梯度估计可能在某些情况下导致不准确的更新，从而影响模型的最终性能。
2 如何在更大规模的数据集上有效应用ZO-SAM仍是一个开放问题。尽管在小型数据集上表现出色，但在更大规模的数据集上，计算成本和内存需求可能成为瓶颈。
3 ZO-SAM在不同深度学习架构中的适用性需要进一步验证。虽然在卷积神经网络中表现良好，但在其他架构中的效果尚不明确。
4 如何进一步优化零阶梯度估计的精度和效率是一个重要的研究方向。现有的方法可能在某些情况下导致梯度估计不准确，从而影响模型性能。
5 ZO-SAM在实际应用中的鲁棒性和可扩展性仍需进一步研究。尽管在实验中表现出色，但在实际部署中可能面临不同的挑战。

应用场景

近期应用

边缘设备

ZO-SAM可以在边缘设备上实现高效的深度学习模型部署，减少计算成本和内存需求，提高设备的智能化水平。

移动应用

通过减少计算开销，ZO-SAM使得在移动设备上运行复杂的深度学习模型成为可能，提升用户体验。

自动驾驶

ZO-SAM在分布偏移下的鲁棒性使其适用于自动驾驶场景，提高车辆在复杂环境中的决策能力。

远期愿景

医疗诊断

ZO-SAM可以用于医疗影像分析，提高诊断的准确性和效率，助力智能医疗的发展。

智能城市

通过在智能城市中部署高效的深度学习模型，ZO-SAM可以提高城市管理的智能化水平，提升居民的生活质量。

原文摘要

Deep learning models, despite their impressive achievements, suffer from high computational costs and memory requirements, limiting their usability in resource-constrained environments. Sparse neural networks significantly alleviate these constraints by dramatically reducing parameter count and computational overhead. However, existing sparse training methods often experience chaotic and noisy gradient signals, severely hindering convergence and generalization performance, particularly at high sparsity levels. To tackle this critical challenge, we propose Zero-Order Sharpness-Aware Minimization (ZO-SAM), a novel optimization framework that strategically integrates zero-order optimization within the SAM approach. Unlike traditional SAM, ZO-SAM requires only a single backpropagation step during perturbation, selectively utilizing zero-order gradient estimations. This innovative approach reduces the backpropagation computational cost by half compared to conventional SAM, significantly lowering gradient variance and effectively eliminating associated computational overhead. By harnessing SAM's capacity for identifying flat minima, ZO-SAM stabilizes the training process and accelerates convergence. These efficiency gains are particularly important in sparse training scenarios, where computational cost is the primary bottleneck that limits the practicality of SAM. Moreover, models trained with ZO-SAM exhibit improved robustness under distribution shift, further broadening its practicality in real-world deployments.

cs.LG

参考文献 (20)

Comparing Rewinding and Fine-tuning in Neural Network Pruning

Alex Renda, Jonathan Frankle, Michael Carbin

2020 432 引用 ⭐ 高影响力查看解读 →

SNIP: Single-shot Network Pruning based on Connection Sensitivity

Namhoon Lee, Thalaiyasingam Ajanthan, Philip H. S. Torr

2018 1413 引用 ⭐ 高影响力查看解读 →

Pruning neural networks without any data by iteratively conserving synaptic flow

Hidenori Tanaka, D. Kunin, Daniel L. K. Yamins 等

2020 790 引用 ⭐ 高影响力查看解读 →

MEST: Accurate and Fast Memory-Economic Sparse Training Framework on the Edge

Geng Yuan, Xiaolong Ma, Wei Niu 等

2021 116 引用 ⭐ 高影响力查看解读 →

Picking Winning Tickets Before Training by Preserving Gradient Flow

Chaoqi Wang, Chaoqi Wang, Guodong Zhang 等

2020 729 引用 ⭐ 高影响力查看解读 →

EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets

Xiaohan Chen, Yu Cheng, Shuohang Wang 等

2020 109 引用 ⭐ 高影响力查看解读 →

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

Jonathan Frankle, Michael Carbin

2018 4064 引用 ⭐ 高影响力查看解读 →

On the Design of Black-Box Adversarial Examples by Leveraging Gradient-Free Optimization and Operator Splitting Method

Pu Zhao, Sijia Liu, Pin-Yu Chen 等

2019 61 引用查看解读 →

Optimal Rates for Zero-Order Convex Optimization: The Power of Two Function Evaluations

John C. Duchi, Michael I. Jordan, M. Wainwright 等

2013 557 引用查看解读 →

Chasing Sparsity in Vision Transformers: An End-to-End Exploration

Tianlong Chen, Yu Cheng, Zhe Gan 等

2021 268 引用查看解读 →

Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark

Yihua Zhang, Pingzhi Li, Junyuan Hong 等

2024 120 引用查看解读 →

Black-box Adversarial Attacks with Limited Queries and Information

Andrew Ilyas, Logan Engstrom, Anish Athalye 等

2018 1348 引用查看解读 →

Zeroth-Order Optimization with Trajectory-Informed Derivative Estimation

Yao Shu, Zhongxiang Dai, Weicong Sng 等

2023 18 引用

Robust and Faster Zeroth-Order Minimax Optimization: Complexity and Applications

Weixin An, Yuanyuan Liu, Fanhua Shang 等

2024 4 引用

Training data-efficient image transformers & distillation through attention

Hugo Touvron, M. Cord, Matthijs Douze 等

2020 8670 引用查看解读 →

Fine-Tuning Language Models with Just Forward Passes

Sadhika Malladi, Tianyu Gao, Eshaan Nichani 等

2023 351 引用查看解读 →

Efficient Sharpness-aware Minimization for Improved Training of Neural Networks

Jiawei Du, Hanshu Yan, Jiashi Feng 等

2021 165 引用查看解读 →

Certified Zeroth-order Black-Box Defense with Robust UNet Denoiser

Astha Verma, Siddhesh Bangar, A. Subramanyam 等

2023 9 引用查看解读 →

Sharpness-Aware Minimization for Efficiently Improving Generalization

Pierre Foret, Ariel Kleiner, H. Mobahi 等

2020 1780 引用查看解读 →

Transfer Learning without Knowing: Reprogramming Black-box Machine Learning Models with Scarce Data and Limited Resources

Yun-Yun Tsai, Pin-Yu Chen, Tsung-Yi Ho

2020 111 引用查看解读 →

ZO-SAM: Zero-Order Sharpness-Aware Minimization for Efficient Sparse Training

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

零阶优化 (Zero-Order Optimization)

锐度感知最小化 (Sharpness-Aware Minimization, SAM)

稀疏训练 (Sparse Training)

梯度方差 (Gradient Variance)

分布偏移 (Distribution Shift)

随机梯度估计 (Random Gradient Estimation, RGE)

坐标梯度估计 (Coordinate-wise Gradient Estimation, CGE)

损失表面 (Loss Surface)

反向传播 (Backpropagation)

超参数调优 (Hyperparameter Tuning)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

边缘设备

移动应用

自动驾驶

远期愿景

医疗诊断

智能城市

原文摘要

参考文献 (20)

相关论文

PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization

Representation Learning for Spatiotemporal Physical Systems

Learnability and Privacy Vulnerability are Entangled in a Few Critical Weights

MXNorm: Reusing MXFP block scales for efficient tensor normalisation

BoSS: A Best-of-Strategies Selector as an Oracle for Deep Active Learning

Breaking the Tuning Barrier: Zero-Hyperparameters Yield Multi-Corner Analysis Via Learned Priors

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问