Generalization at the Edge of Stability

TL;DR

引入“锐度维度”来解释边缘稳定性下的泛化性能提升。

cs.LG 🔴 高级 2026-04-22 39 次浏览

Mario Tuci Caner Korkmaz Umut Şimşekli Tolga Birdal

边缘稳定性混沌动力学泛化性能神经网络 Lyapunov维度

核心发现

方法论

本研究将随机优化器表示为随机动力系统，通常收敛到一个分形吸引子集，而不是一个点。基于此，我们引入了一个新的维度概念，称为“锐度维度”，并基于此维度证明了一个泛化界限。我们的结果表明，在混沌状态下的泛化依赖于完整的Hessian谱及其部分行列式的结构，强调了无法通过先前工作中考虑的迹或谱范数捕获的复杂性。

关键结果

结果1：在多层感知机和Transformer的实验中，验证了理论的正确性，并提供了对最近观察到的grokking现象的新见解。
结果2：通过引入“锐度维度”，证明了在边缘稳定性下，泛化由一个可证明的低维吸引子控制。
结果3：实验表明，训练动态在边缘稳定性下表现出混沌行为，训练轨迹对初始化显示出敏感依赖。

研究意义

这项研究通过引入“锐度维度”提供了一个新的视角来理解神经网络在边缘稳定性下的泛化性能。它揭示了在混沌状态下，泛化性能不仅仅依赖于单个解的性质，而是与优化器在长期内探索的整个解集的几何和特征有关。这一发现对学术界和工业界都有重要影响，因为它挑战了传统的复杂性度量标准，并为理解过参数化模型的泛化能力提供了理论基础。

技术贡献

技术贡献包括将随机优化器建模为随机动力系统，提出了“锐度维度”这一新概念，并证明了基于此维度的泛化界限。此外，研究揭示了完整Hessian谱及其部分行列式结构在泛化中的重要性，超越了传统的迹或谱范数的分析方法。这为理解过参数化模型的泛化能力提供了新的理论保证和工程可能性。

新颖性

本研究首次将随机优化器建模为随机动力系统，并引入了“锐度维度”这一新概念。与以往研究不同的是，本研究揭示了在混沌状态下的泛化性能依赖于完整的Hessian谱及其部分行列式的结构，而不是传统的迹或谱范数。这一创新为理解神经网络在边缘稳定性下的泛化能力提供了新的视角。

局限性

局限1：该方法在计算完整Hessian谱时可能面临计算复杂性的问题，尤其是在处理大规模模型时。
局限2：虽然理论上证明了泛化界限，但在实际应用中可能需要进一步验证其适用性。
局限3：该研究主要集中在多层感知机和Transformer上，其他类型的神经网络可能需要额外的研究。

未来方向

未来的研究方向包括：1）在更大规模的神经网络上验证“锐度维度”的适用性；2）探索其他类型的神经网络在边缘稳定性下的泛化性能；3）开发更高效的算法来计算完整Hessian谱，以减少计算复杂性。

AI 总览摘要

在现代机器学习中，理解为什么大规模、过参数化的神经网络能够泛化是一个核心问题。传统的优化理论认为，训练过程中应该避免不稳定和混沌行为。然而，最近的研究表明，在边缘稳定性下，神经网络的泛化性能反而得到了提升。

本研究提出了一种新的方法，将随机优化器建模为随机动力系统，并引入了“锐度维度”这一新概念。通过这一方法，研究揭示了在混沌状态下，泛化性能不仅仅依赖于单个解的性质，而是与优化器在长期内探索的整个解集的几何和特征有关。

核心技术原理包括：1）随机动力系统的建模；2）“锐度维度”的定义及其在泛化中的作用；3）完整Hessian谱及其部分行列式结构在泛化中的重要性。这些原理为理解过参数化模型的泛化能力提供了新的视角。

实验结果表明，在多层感知机和Transformer上，理论得到了验证，并提供了对最近观察到的grokking现象的新见解。具体数据表明，在边缘稳定性下，泛化由一个可证明的低维吸引子控制。

这一研究对学术界和工业界都有重要影响，因为它挑战了传统的复杂性度量标准，并为理解过参数化模型的泛化能力提供了理论基础。然而，计算完整Hessian谱的复杂性问题仍需解决，未来的研究将集中在更大规模的模型和其他类型的神经网络上。

深度分析

研究背景

近年来，随着深度学习的快速发展，理解神经网络的泛化能力成为一个重要的研究课题。传统的优化理论认为，训练过程中应该避免不稳定和混沌行为，以确保模型的泛化能力。然而，最近的研究表明，在边缘稳定性下，神经网络的泛化性能反而得到了提升。这一现象引起了研究者的广泛关注，因为它挑战了传统的复杂性度量标准，并为理解过参数化模型的泛化能力提供了新的视角。

核心问题

核心问题在于，如何解释在边缘稳定性下神经网络的泛化性能提升。传统的复杂性度量标准，如Hessian的迹或谱范数，无法捕捉到这一现象的复杂性。因此，需要一种新的方法来理解在混沌状态下的泛化性能，这对于提高神经网络的泛化能力具有重要意义。

核心创新

本研究的核心创新包括：1）将随机优化器建模为随机动力系统，这一创新为理解在混沌状态下的泛化性能提供了新的视角；2）引入“锐度维度”这一新概念，通过这一维度可以更好地解释在边缘稳定性下的泛化性能；3）揭示了完整Hessian谱及其部分行列式结构在泛化中的重要性，这一发现超越了传统的迹或谱范数的分析方法。

方法详解

�� 将随机优化器建模为随机动力系统，研究其在边缘稳定性下的动态行为。

�� 引入“锐度维度”这一新概念，通过Lyapunov维度理论进行定义，并证明了基于此维度的泛化界限。

�� 分析完整Hessian谱及其部分行列式结构在泛化中的作用，强调其在混沌状态下的复杂性。

�� 通过多层感知机和Transformer的实验验证理论的正确性，并提供对grokking现象的新见解。

实验设计

实验设计包括在多层感知机和Transformer上验证理论的正确性。使用不同的学习率和批量大小，研究在边缘稳定性下的泛化性能。通过计算完整Hessian谱及其部分行列式结构，分析其在泛化中的作用。实验数据表明，在边缘稳定性下，泛化由一个可证明的低维吸引子控制。

结果分析

实验结果表明，在多层感知机和Transformer上，理论得到了验证，并提供了对最近观察到的grokking现象的新见解。具体数据表明，在边缘稳定性下，泛化由一个可证明的低维吸引子控制。这一发现对理解过参数化模型的泛化能力具有重要意义。

应用场景

本研究的应用场景包括：1）提高神经网络的泛化能力，尤其是在边缘稳定性下的模型；2）为理解过参数化模型的泛化能力提供理论基础；3）在工业界中，帮助开发更高效的深度学习模型。

局限与展望

尽管本研究提供了新的视角来理解神经网络的泛化能力，但在计算完整Hessian谱时可能面临计算复杂性的问题，尤其是在处理大规模模型时。此外，虽然理论上证明了泛化界限，但在实际应用中可能需要进一步验证其适用性。未来的研究将集中在更大规模的模型和其他类型的神经网络上。

通俗解读非专业人士也能看懂

想象一下你在一个复杂的迷宫中，迷宫的墙壁不断变化。你需要找到一个出口，而不是被困在一个死胡同里。传统的方法是尽量避免不稳定的路径，确保每一步都稳妥。然而，最近的研究发现，有时候走在那些看似不稳定的路径上，反而能更快找到出口。这就像在一个混乱的迷宫中，找到了一种新的导航方式。

在神经网络的训练中，传统的优化方法就像是小心翼翼地走在迷宫中，避免任何不稳定的路径。然而，本研究提出了一种新的方法，就像是利用迷宫墙壁的变化来找到更好的路径。这种方法被称为“锐度维度”，它帮助我们理解在混乱的路径中，如何找到更好的出口。

通过这种新方法，我们可以更好地理解神经网络在不稳定状态下的表现。这不仅帮助我们找到更好的解决方案，还为未来的研究提供了新的方向。就像在迷宫中找到了一种新的导航方式，我们可以更快、更高效地找到出口。

简单解释像给14岁少年讲一样

嘿，小伙伴们！你们知道吗？在训练神经网络的时候，通常我们希望它们能像一个乖乖的小学生，按部就班地学习，不出错。但有时候，这些网络就像是调皮的孩子，喜欢在边缘试探，甚至有点混乱！

这篇研究就像是告诉我们，嘿，这种调皮其实有好处！当网络在边缘状态下，它们可能会学得更好，就像在玩游戏时，偶尔的冒险能让你发现隐藏的宝藏！

研究人员引入了一个叫“锐度维度”的新概念，帮助我们理解这些网络在混乱中的表现。就像是给调皮的孩子找到了一个新的学习方法，让他们在探索中学得更好！

所以，下次你看到一个调皮的孩子，不要急着批评，也许他们正在用自己的方式学习呢！这个研究告诉我们，有时候，混乱也是一种学习的方式哦！

术语表

边缘稳定性 (Edge of Stability)

指的是神经网络在训练过程中，参数更新处于不稳定的边缘状态。这种状态下，优化动态表现出振荡和混沌行为。

在论文中用于描述神经网络在大学习率下的训练状态。

随机动力系统 (Random Dynamical System)

一种数学模型，用于描述在随机影响下的动力学系统。它通常用于分析复杂系统的长期行为。

用于建模随机优化器的动态行为。

锐度维度 (Sharpness Dimension)

一种新的维度概念，用于衡量在混沌状态下的泛化性能。基于Lyapunov维度理论进行定义。

用于解释在边缘稳定性下的泛化性能。

Lyapunov维度 (Lyapunov Dimension)

一种用于衡量动力系统混沌程度的数学工具。它通过分析系统的Lyapunov指数来确定系统的复杂性。

用于定义锐度维度。

Hessian谱 (Hessian Spectrum)

指的是Hessian矩阵的特征值集合。它用于描述损失函数的局部曲率。

用于分析泛化性能的复杂性。

分形吸引子 (Fractal Attractor)

在动力系统中，一种具有分形结构的吸引子。它表示系统在长期行为中趋向的集合。

用于描述随机优化器的收敛行为。

grokking现象 (Grokking Phenomenon)

指的是神经网络在训练过程中，经过长时间的稳定期后，突然表现出显著的泛化性能提升。

用于验证理论的实验现象。

谱范数 (Spectral Norm)

矩阵的一个范数，定义为其最大特征值的绝对值。用于衡量矩阵的大小。

用于传统复杂性度量标准。

迹 (Trace)

矩阵的对角线元素之和。用于衡量矩阵的整体大小。

用于传统复杂性度量标准。

多层感知机 (Multilayer Perceptron)

一种前馈神经网络，由多个层组成，每层由多个神经元构成。

用于验证理论的实验模型。

开放问题这项研究留下的未解疑问

1 如何在大规模神经网络上有效计算完整Hessian谱？目前的方法在计算复杂性上存在挑战，尤其是在处理大规模模型时。这需要开发更高效的算法来减少计算复杂性。
2 在其他类型的神经网络中，边缘稳定性下的泛化性能是否也能得到提升？目前的研究主要集中在多层感知机和Transformer上，其他类型的网络可能需要额外的研究。
3 如何在实际应用中验证“锐度维度”的适用性？虽然理论上证明了泛化界限，但在实际应用中可能需要进一步验证其适用性。这需要在不同的应用场景中进行实验。
4 在混沌状态下，泛化性能的提升是否具有普遍性？目前的研究表明，混沌状态下的泛化性能提升在某些情况下有效，但是否具有普遍性仍需进一步研究。
5 如何将“锐度维度”应用于其他领域的优化问题？这一概念在神经网络中的应用取得了成功，但在其他领域的应用仍需探索。

应用场景

近期应用

提高神经网络的泛化能力

通过应用“锐度维度”，可以在边缘稳定性下提高神经网络的泛化能力，尤其是在大规模模型中。

优化深度学习模型

在工业界中，利用这一研究成果可以开发更高效的深度学习模型，提高模型的性能和稳定性。

理解过参数化模型的泛化能力

为学术界提供理论基础，帮助研究人员更好地理解过参数化模型的泛化能力。

远期愿景

开发更高效的优化算法

通过深入研究“锐度维度”，可以开发更高效的优化算法，应用于更广泛的领域。

推动人工智能的发展

这一研究为人工智能的发展提供了新的理论基础，可能会在未来推动AI技术的进一步突破。

原文摘要

Training modern neural networks often relies on large learning rates, operating at the edge of stability, where the optimization dynamics exhibit oscillatory and chaotic behavior. Empirically, this regime often yields improved generalization performance, yet the underlying mechanism remains poorly understood. In this work, we represent stochastic optimizers as random dynamical systems, which often converge to a fractal attractor set (rather than a point) with a smaller intrinsic dimension. Building on this connection and inspired by Lyapunov dimension theory, we introduce a novel notion of dimension, coined the `sharpness dimension', and prove a generalization bound based on this dimension. Our results show that generalization in the chaotic regime depends on the complete Hessian spectrum and the structure of its partial determinants, highlighting a complexity that cannot be captured by the trace or spectral norm considered in prior work. Experiments across various MLPs and transformers validate our theory while also providing new insights into the recently observed phenomenon of grokking.

cs.LG cs.AI cs.CV stat.ML

参考文献 (20)

Language Models are Unsupervised Multitask Learners

Alec Radford, Jeff Wu, R. Child 等

2019 28137 引用 ⭐ 高影响力

Hausdorff dimension, heavy tails, and generalization in neural networks

Umut Simsekli, Ozan Sener, George Deligiannidis 等

2020 70 引用 ⭐ 高影响力查看解读 →

Random attractors

H. Crauel, A. Debussche, F. Flandoli

1997 553 引用 ⭐ 高影响力

Topological Generalization Bounds for Discrete-Time Stochastic Optimization Algorithms

R. Andreeva, Benjamin Dupuis, Rik Sarkar 等

2024 10 引用 ⭐ 高影响力查看解读 →

Uniform Generalization Bounds on Data-Dependent Hypothesis Sets via PAC-Bayesian Theory on Random Sets

Benjamin Dupuis, Paul Viallard, George Deligiannidis 等

2024 7 引用 ⭐ 高影响力查看解读 →

Intrinsic Dimension, Persistent Homology and Generalization in Neural Networks

Tolga Birdal, Aaron Lou, L. Guibas 等

2021 87 引用 ⭐ 高影响力查看解读 →

Decoupled Weight Decay Regularization

I. Loshchilov, F. Hutter

2017 32815 引用 ⭐ 高影响力

Finding Structure with Randomness: Probabilistic Algorithms for Constructing Approximate Matrix Decompositions

N. Halko, P. Martinsson, J. Tropp

2009 2839 引用 ⭐ 高影响力

Random Dynamical Systems

V. Araújo

2006 2077 引用 ⭐ 高影响力查看解读 →

Gradient Descent on Neural Networks Typically Occurs at the Edge of Stability

Jeremy M. Cohen, Simran Kaur, Yuanzhi Li 等

2021 384 引用 ⭐ 高影响力查看解读 →

Optimization on multifractal loss landscapes explains a diverse range of geometrical and dynamical properties of deep learning

Andrew Ly, Pulin Gong

2025 19 引用 ⭐ 高影响力

Approximating Spectral Densities of Large Matrices

Lin Lin, Y. Saad, Chao Yang

2013 173 引用 ⭐ 高影响力查看解读 →

On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima

N. Keskar, Dheevatsa Mudigere, J. Nocedal 等

2016 3378 引用查看解读 →

Adversarial Weight Perturbation Helps Robust Generalization

Dongxian Wu, Shutao Xia, Yisen Wang

2020 848 引用

Measure theory

Oliver Fest

2019 3113 引用

Understanding Edge-of-Stability Training Dynamics with a Minimalist Example

Xingyu Zhu, Zixuan Wang, Xiang Wang 等

2022 58 引用查看解读 →

Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets

Alethea Power, Yuri Burda, Harrison Edwards 等

2022 574 引用查看解读 →

Sharpness-Aware Minimization for Efficiently Improving Generalization

Pierre Foret, Ariel Kleiner, H. Mobahi 等

2020 1832 引用查看解读 →

Generalisation under gradient descent via deterministic PAC-Bayes

Eugenio Clerico, Tyler Farghly, George Deligiannidis 等

2022 7 引用查看解读 →

Unique Properties of Flat Minima in Deep Networks

Rotem Mulayoff, T. Michaeli

2020 42 引用

Generalization at the Edge of Stability

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

边缘稳定性 (Edge of Stability)

随机动力系统 (Random Dynamical System)

锐度维度 (Sharpness Dimension)

Lyapunov维度 (Lyapunov Dimension)

Hessian谱 (Hessian Spectrum)

分形吸引子 (Fractal Attractor)

grokking现象 (Grokking Phenomenon)

谱范数 (Spectral Norm)

迹 (Trace)

多层感知机 (Multilayer Perceptron)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

提高神经网络的泛化能力

优化深度学习模型

理解过参数化模型的泛化能力

远期愿景

开发更高效的优化算法

推动人工智能的发展

原文摘要

参考文献 (20)

相关论文

Scalable Hyperparameter-Divergent Ensemble Training with Automatic Learning Rate Exploration for Large Models

Efficient learning by implicit exploration in bandit problems with side observations

Necessary and sufficient conditions for universality of Kolmogorov-Arnold networks

Collocation-based Robust Physics Informed Neural Networks for time-dependent simulations of pollution propagation under thermal inversion conditions on Spitsbergen

Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection

Neural Recovery of Historical Lexical Structure in Bantu Languages from Modern Data

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问