Benchmarking Optimizers for MLPs in Tabular Deep Learning

TL;DR

Muon优化器在MLP表格深度学习中表现优于AdamW，适合在可接受的训练效率下使用。

cs.LG 🔴 高级 2026-04-17 37 次浏览

Yury Gorishniy Ivan Rubachev Dmitrii Feoktistov Artem Babenko

优化器多层感知器表格数据深度学习实验基准

核心发现

方法论

本文系统地对比了15种优化器在17个表格数据集上的表现，采用统一的超参数调优和评估协议。研究特别关注Muon优化器，它在多个领域表现出色，包括语言模型训练和信息检索。实验中，使用了标准的ReLU MLP和更复杂的MLP变体，如MLP†和TabM。

关键结果

Muon优化器在所有MLP变体上均优于AdamW，平均提高了0.32分数。具体而言，在17个数据集上，Muon在大多数情况下表现更好，尤其是在复杂模型如TabM†上，表现提升更为显著。
实验显示，使用指数移动平均（EMA）可以在某些情况下进一步提升AdamW的表现，但在复杂模型上效果不如Muon显著。
在训练效率方面，Muon比AdamW慢约1.03倍，但在预测性能上有显著提升，尤其是在数据有限和噪声较大的环境中。

研究意义

这项研究填补了表格深度学习中优化器选择的系统性研究空白，提供了一个全面的基准测试。Muon优化器的优越性能为研究人员和从业者提供了新的选择，尤其是在需要高泛化能力的情况下。研究还揭示了EMA在简单MLP上的潜在价值，尽管在复杂模型中效果不一。

技术贡献

本文的技术贡献在于首次系统地评估了多种优化器在表格数据上的表现，特别是Muon优化器的优越性。研究提供了新的实验数据和分析，证明了Muon在多种MLP架构中的一致性表现，并探讨了EMA的应用潜力。

新颖性

这是首次在表格深度学习中系统对比多种优化器的研究，特别是将Muon优化器引入这一领域。与以往研究主要关注架构设计不同，本文强调了优化器选择对模型性能的影响。

局限性

研究仅限于MLP架构，未涉及其他深度学习模型，如卷积神经网络或图神经网络，限制了结果的普适性。
Muon优化器的训练速度较慢，可能不适合计算资源有限的场景。
研究未深入探讨不同优化器在特定数据集上的表现差异，未来需要更细致的分析。

未来方向

未来研究可以扩展到其他类型的深度学习模型，如卷积神经网络和图神经网络，探索Muon优化器在不同领域的应用潜力。此外，可以研究如何优化Muon的训练效率，使其在计算资源受限的环境中更具竞争力。

AI 总览摘要

在现代深度学习中，多层感知器（MLP）是用于表格数据监督学习的重要架构，而AdamW则是训练这些模型的默认优化器。然而，尽管在其他领域有新的优化器显示出潜力，表格深度学习中的优化器选择尚未得到系统研究。

本文通过在17个表格数据集上对15种优化器进行基准测试，填补了这一空白。研究发现，Muon优化器在所有MLP变体上均优于AdamW，尤其是在复杂模型如TabM†上，表现提升更为显著。虽然Muon的训练速度较慢，但其在预测性能上的提升使其成为一个强有力的选择。

研究还探讨了指数移动平均（EMA）技术在提高AdamW性能方面的作用。虽然EMA在简单MLP上表现良好，但在复杂模型中效果不一，这表明其应用需要根据具体模型进行调整。

这项研究的意义在于为表格深度学习提供了一个全面的优化器选择指南，特别是Muon优化器的引入，为研究人员和从业者提供了新的工具。研究还揭示了在数据有限和噪声较大的环境中，优化器选择对模型泛化能力的影响。

然而，研究也存在局限性。首先，研究仅限于MLP架构，未涉及其他深度学习模型。此外，Muon优化器的训练速度较慢，可能不适合计算资源有限的场景。未来研究可以扩展到其他类型的深度学习模型，探索Muon优化器在不同领域的应用潜力。

深度分析

研究背景

在深度学习中，表格数据的处理一直是一个重要的研究领域。多层感知器（MLP）作为一种基础架构，广泛应用于表格数据的监督学习任务。近年来，虽然在架构设计上取得了显著进展，但优化器的选择仍然主要依赖于AdamW，缺乏系统的研究。随着新优化器在其他领域的成功应用，重新审视表格数据中的优化器选择显得尤为重要。

核心问题

表格深度学习中优化器选择的缺乏系统性研究，导致在实际应用中可能错失性能提升的机会。AdamW虽然是默认选择，但其在表格数据中的最佳性尚未得到验证。特别是在数据有限和噪声较大的环境中，优化器的选择对模型的泛化能力有着重要影响。

核心创新

本文的创新之处在于：

1) 系统地评估了15种优化器在表格数据上的表现，填补了这一领域的研究空白。

2) 引入了Muon优化器，展示了其在多种MLP架构中的优越性。

3) 探讨了指数移动平均（EMA）技术在提高AdamW性能方面的作用，提供了新的实验数据和分析。

方法详解

研究方法包括：

�� 选择15种优化器，包括Muon、AdamW及其变体。
�� 在17个表格数据集上进行实验，涵盖不同的任务类型和数据规模。
�� 使用统一的超参数调优和评估协议，确保结果的可比性。
�� 对每种优化器进行独立调优，确保公平比较。
�� 采用交叉验证和多次实验，确保结果的稳健性。

实验设计

实验设计包括：

�� 数据集：使用17个表格数据集，包括标准学术数据集和工业数据集。
�� 模型：使用标准ReLU MLP和更复杂的MLP变体，如MLP†和TabM。
�� 评估指标：分类任务使用准确率，回归任务使用均方误差。
�� 超参数调优：使用Optuna进行调优，每个优化器在各自的搜索空间内独立调优。

结果分析

结果分析显示：

�� Muon优化器在所有MLP变体上均优于AdamW，尤其是在复杂模型如TabM†上，表现提升更为显著。
�� 使用EMA可以在某些情况下进一步提升AdamW的表现，但在复杂模型上效果不如Muon显著。
�� Muon的训练速度较慢，但在预测性能上有显著提升，尤其是在数据有限和噪声较大的环境中。

应用场景

应用场景包括：

�� 在需要高泛化能力的表格数据任务中，Muon优化器可以显著提升模型性能。
�� 在数据有限和噪声较大的环境中，优化器选择对模型泛化能力的影响尤为重要。
�� EMA技术在简单MLP上的应用潜力，适合需要快速性能提升的场景。

局限与展望

局限与展望：

�� 研究仅限于MLP架构，未涉及其他深度学习模型，如卷积神经网络或图神经网络。
�� Muon优化器的训练速度较慢，可能不适合计算资源有限的场景。
�� 未来研究可以扩展到其他类型的深度学习模型，探索Muon优化器在不同领域的应用潜力。

通俗解读非专业人士也能看懂

想象你在厨房里做饭。你有一个食谱（MLP模型），需要选择合适的厨具（优化器）来完成这道菜。AdamW就像是你常用的锅具，虽然可靠，但并不是每道菜的最佳选择。Muon优化器就像是一款新型的多功能锅，虽然操作稍复杂，但能让菜肴更加美味。研究发现，Muon在处理复杂菜肴（复杂模型）时表现更佳，而在简单菜肴（简单模型）中，使用一些小技巧（如EMA）也能提升表现。虽然Muon的使用可能需要更多时间，但如果你想做出一顿丰盛的晚餐，它绝对值得一试。

简单解释像给14岁少年讲一样

嘿，小伙伴！你知道吗，科学家们最近在研究如何让电脑更聪明，特别是在处理表格数据时。就像你在学校用不同的笔记本来记不同科目的笔记，科学家们也在找最好的工具来训练电脑。AdamW是他们常用的工具，就像你最喜欢的笔记本。但他们发现了一个新工具，叫Muon，就像一个超级笔记本，能让电脑学得更好！不过，这个新工具有点慢，就像写字慢一点但更整洁。科学家们还发现了一些小技巧，可以让旧工具表现得更好。未来，他们会继续研究这些工具，看看能不能让电脑学得又快又好！

术语表

Optimizer (优化器)

用于调整模型参数以最小化损失函数的算法。在本文中，优化器用于训练MLP模型。

研究中比较了15种优化器在表格数据上的表现。

MLP (多层感知器)

一种神经网络架构，由多个全连接层组成，常用于处理表格数据。

MLP是本文研究的主要模型架构。

AdamW

一种常用的优化器，结合了Adam优化器和权重衰减技术。

AdamW是表格深度学习中的默认优化器。

Muon

一种新型优化器，在多个领域表现优异。

研究发现Muon在表格数据上的表现优于AdamW。

EMA (指数移动平均)

一种技术，通过对模型权重进行指数移动平均来提高模型性能。

研究探讨了EMA在提高AdamW性能方面的作用。

TabM

一种基于MLP的复杂模型，使用参数高效的集成技术。

TabM是研究中评估的复杂模型之一。

Optuna

一种用于超参数调优的框架，采用贝叶斯优化技术。

研究中使用Optuna进行优化器的超参数调优。

Cross-Entropy Loss (交叉熵损失)

一种用于分类任务的损失函数，衡量预测概率分布与真实分布之间的差异。

研究中分类任务使用交叉熵损失进行训练。

RMSE (均方根误差)

一种用于回归任务的评估指标，衡量预测值与真实值之间的差异。

研究中回归任务使用RMSE作为评估指标。

Hyperparameter Tuning (超参数调优)

调整模型或优化器的参数以优化其性能的过程。

研究中对每种优化器进行独立的超参数调优。

开放问题这项研究留下的未解疑问

1 虽然Muon优化器在表格数据上表现优异，但其在其他类型的深度学习模型中的表现尚未得到验证。未来研究可以扩展到卷积神经网络和图神经网络，探索Muon在更多领域的应用潜力。
2 研究中未深入探讨不同优化器在特定数据集上的表现差异。未来需要更细致的分析，以了解不同优化器在不同数据特征下的优缺点。
3 虽然研究探讨了EMA在提高AdamW性能方面的作用，但其在复杂模型中的效果不一。未来研究可以进一步探索EMA在不同模型架构中的应用潜力。
4 研究中未涉及优化器在训练效率和资源消耗方面的比较。未来可以研究如何优化Muon的训练效率，使其在计算资源受限的环境中更具竞争力。
5 虽然研究提供了丰富的实验数据，但未涉及理论分析。未来研究可以从理论上探讨为什么Muon在表格数据上表现优异。

应用场景

近期应用

表格数据分析

Muon优化器可以用于提升表格数据分析任务中的模型性能，特别是在需要高泛化能力的场景中。

金融数据预测

在金融数据预测中，使用Muon优化器可以提高模型的预测准确性，帮助金融机构更好地进行风险管理。

医疗数据分析

在医疗数据分析中，Muon优化器可以帮助提高模型的诊断准确性，为医疗决策提供更可靠的支持。

远期愿景

智能决策系统

Muon优化器的优越性能可以应用于构建更智能的决策系统，提高自动化决策的准确性和效率。

跨领域应用

随着对Muon优化器的深入研究，其应用可以扩展到更多领域，如图像识别和自然语言处理，推动这些领域的发展。

原文摘要

MLP is a heavily used backbone in modern deep learning (DL) architectures for supervised learning on tabular data, and AdamW is the go-to optimizer used to train tabular DL models. Unlike architecture design, however, the choice of optimizer for tabular DL has not been examined systematically, despite new optimizers showing promise in other domains. To fill this gap, we benchmark \Noptimizers optimizers on \Ndatasets tabular datasets for training MLP-based models in the standard supervised learning setting under a shared experiment protocol. Our main finding is that the Muon optimizer consistently outperforms AdamW, and thus should be considered a strong and practical choice for practitioners and researchers, if the associated training efficiency overhead is affordable. Additionally, we find exponential moving average of model weights to be a simple yet effective technique that improves AdamW on vanilla MLPs, though its effect is less consistent across model variants.

cs.LG

参考文献 (20)

Accelerating Neural Network Training: An Analysis of the AlgoPerf Competition

Priya Kasimbeg, Frank Schneider, Runa Eschenhagen 等

2025 22 引用 ⭐ 高影响力查看解读 →

TabM: Advancing Tabular Deep Learning with Parameter-Efficient Ensembling

Yu. V. Gorishniy, Akim Kotelnikov, Artem Babenko

2024 73 引用 ⭐ 高影响力查看解读 →

Decoupled Weight Decay Regularization

I. Loshchilov, F. Hutter

2017 32696 引用 ⭐ 高影响力

Unveiling the Role of Data Uncertainty in Tabular Deep Learning

Nikolay Kartashev, Ivan Rubachev, Artem Babenko

2025 1 引用 ⭐ 高影响力查看解读 →

The Road Less Scheduled

Aaron Defazio, Xingyu Yang, Harsh Mehta 等

2024 144 引用 ⭐ 高影响力查看解读 →

signSGD: compressed optimisation for non-convex problems

Jeremy Bernstein, Yu-Xiang Wang, K. Azizzadenesheli 等

2018 1237 引用查看解读 →

Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models

Xingyu Xie, Pan Zhou, Huan Li 等

2022 277 引用查看解读 →

Symbolic Discovery of Optimization Algorithms

Xiangning Chen, Chen Liang, Da Huang 等

2023 588 引用查看解读 →

The AdEMAMix Optimizer: Better, Faster, Older

Matteo Pagliardini, Pierre Ablin, David Grangier

2024 32 引用查看解读 →

Scikit-learn: Machine Learning in Python

Fabian Pedregosa, G. Varoquaux, Alexandre Gramfort 等

2011 87884 引用查看解读 →

SOAP: Improving and Stabilizing Shampoo using Adam for Language Modeling

Nikhil Vyas, Depen Morwani, Rosie Zhao 等

2025 43 引用

Benchmarking Optimizers for Large Language Model Pretraining

Andrei Semenov, Matteo Pagliardini, Martin Jaggi

2025 29 引用查看解读 →

Tabular Data: Is Deep Learning all you need?

Guri Zabergja, A. Kadra, Christian M. M. Frey 等

2024 5 引用查看解读 →

Averaging Weights Leads to Wider Optima and Better Generalization

Pavel Izmailov, Dmitrii Podoprikhin, T. Garipov 等

2018 1959 引用查看解读 →

Analyzing and Improving the Training Dynamics of Diffusion Models

T. Karras, M. Aittala, J. Lehtinen 等

2023 383 引用查看解读 →

Revisiting Nearest Neighbor for Tabular Data: A Deep Tabular Baseline Two Decades Later

Han-Jia Ye, Huai-Hong Yin, De-chuan Zhan 等

2024 20 引用查看解读 →

TabR: Tabular Deep Learning Meets Nearest Neighbors

Yu. V. Gorishniy, Ivan Rubachev, Nikolay Kartashev 等

2023 75 引用查看解读 →

TabArena: A Living Benchmark for Machine Learning on Tabular Data

Nick Erickson, Lennart Purucker, Andrej Tschalzev 等

2025 64 引用查看解读 →

Incorporating Nesterov Momentum into Adam

Timothy Dozat

2016 2024 引用

Optimizing Rank for High-Fidelity Implicit Neural Representations

Julian McGinnis, Florian A. Hölzl, Suprosanna Shit 等

2025 3 引用查看解读 →

Benchmarking Optimizers for MLPs in Tabular Deep Learning

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

Optimizer (优化器)

MLP (多层感知器)

AdamW

Muon

EMA (指数移动平均)

TabM

Optuna

Cross-Entropy Loss (交叉熵损失)

RMSE (均方根误差)

Hyperparameter Tuning (超参数调优)

开放问题 这项研究留下的未解疑问

应用场景

近期应用

表格数据分析

金融数据预测

医疗数据分析

远期愿景

智能决策系统

跨领域应用

原文摘要

参考文献 (20)

相关论文

Scalable Hyperparameter-Divergent Ensemble Training with Automatic Learning Rate Exploration for Large Models

Efficient learning by implicit exploration in bandit problems with side observations

Necessary and sufficient conditions for universality of Kolmogorov-Arnold networks

Collocation-based Robust Physics Informed Neural Networks for time-dependent simulations of pollution propagation under thermal inversion conditions on Spitsbergen

Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection

Neural Recovery of Historical Lexical Structure in Bantu Languages from Modern Data

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问