Scalable Hyperparameter-Divergent Ensemble Training with Automatic Learning Rate Exploration for Large Models

TL;DR

提出HDET方法，通过自动学习率探索提高大模型训练的优化质量和泛化能力。

cs.LG 🔴 高级 2026-04-28 24 次浏览

Hailing Cheng Tao Huang Chen Zhu Antonio Alonso

超参数学习率大模型自动化并行计算

核心发现

方法论

本文提出了一种名为超参数发散集成训练（HDET）的新方法，该方法利用现有的GPU副本进行学习率的同时探索，而无需额外的硬件开销。HDET在训练过程中交替进行两个阶段：在fan-out阶段，每个副本在一个对称的学习率范围内独立训练；在converge阶段，每隔T步通过AllReduce进行参数平均。基于此集成框架，本文还提出了一种自动学习率控制器，利用副本间的相对训练损失作为性能信号，通过无梯度的动量元更新来调整共享的基础计划。该方法无需额外的超参数搜索或训练预算，便可生成自适应的学习率计划，提升优化质量和泛化能力。

关键结果

HDET方法在生产级训练任务中显著提高了最终模型质量和收敛速度。例如，在使用8个H100 GPU的实验中，HDET实现了3.277的训练损失，相较于基线模型的3.294有显著提升。
通过自动学习率控制器，HDET能够在不需要手动调节的情况下，自主发现每个参数组的学习率衰减顺序，这在大规模推荐系统的生产环境中表现出色。
实验表明，HDET在高学习率下训练稳定，而传统的DDP在相同条件下会导致发散。

研究意义

HDET方法在大模型训练中具有重要意义，尤其是在需要高效探索超参数空间的场景下。传统方法通常需要耗费大量计算资源进行网格搜索，而HDET通过利用现有的GPU副本实现了零硬件开销的超参数探索。这一方法不仅提高了模型的优化质量和泛化能力，还为大规模分布式训练提供了一种新的视角，可能会影响未来的深度学习框架设计。

技术贡献

HDET方法的技术贡献在于其将现有的DDP副本转化为结构化的学习率探索集成体，而无需额外的硬件开销。通过fan-out/converge循环和自动学习率控制器，HDET实现了在线的学习率自适应调整，消除了传统方法中对学习率计划的先验选择需求。此外，HDET框架的通用性使其能够探索任何不改变模型架构的标量超参数，如dropout率、注意力温度和权重衰减系数。

新颖性

HDET是首个利用现有GPU副本进行学习率同时探索的方法。与现有方法不同，HDET不依赖梯度信息，而是利用副本间的损失差异作为信号进行无梯度优化。这种创新的探索方式不仅提高了训练的稳定性和效率，还为超参数优化提供了新的思路。

局限性

HDET方法在高学习率下的稳定性依赖于周期性的参数平均，这可能在某些情况下增加通信开销。
虽然HDET可以探索多种超参数，但其性能可能会受到特定任务或数据集的影响，需要进一步验证其通用性。
在某些情况下，自动学习率控制器可能无法快速适应极端的学习率变化，导致初始阶段的训练不稳定。

未来方向

未来的研究方向包括进一步优化HDET的通信效率，探索其在不同任务和数据集上的适用性。此外，结合其他优化算法，如Adam的参数自适应调整，可能会进一步提升HDET的性能。研究如何在更大规模的数据集上应用HDET也是一个值得探索的方向。

AI 总览摘要

在深度学习领域，学习率的选择对大模型的训练效果至关重要。然而，现有的方法通常需要在训练前固定学习率计划，这限制了模型在训练过程中的自适应能力。传统的网格搜索方法不仅耗时耗力，而且在模型或数据集规模变化时可能不再适用。

为了解决这一问题，本文提出了超参数发散集成训练（HDET）方法。HDET通过将现有的GPU副本用于学习率的同时探索，实现了零硬件开销的超参数优化。该方法在训练过程中交替进行两个阶段：在fan-out阶段，每个副本在一个对称的学习率范围内独立训练；在converge阶段，每隔T步通过AllReduce进行参数平均。

HDET的核心技术原理在于其自动学习率控制器，该控制器利用副本间的相对训练损失作为性能信号，通过无梯度的动量元更新来调整共享的基础计划。这种创新的探索方式不仅提高了训练的稳定性和效率，还为超参数优化提供了新的思路。

实验结果表明，HDET在生产级训练任务中显著提高了最终模型质量和收敛速度。例如，在使用8个H100 GPU的实验中，HDET实现了3.277的训练损失，相较于基线模型的3.294有显著提升。此外，HDET能够在不需要手动调节的情况下，自主发现每个参数组的学习率衰减顺序。

HDET方法在大模型训练中具有重要意义，尤其是在需要高效探索超参数空间的场景下。传统方法通常需要耗费大量计算资源进行网格搜索，而HDET通过利用现有的GPU副本实现了零硬件开销的超参数探索。这一方法不仅提高了模型的优化质量和泛化能力，还为大规模分布式训练提供了一种新的视角。

尽管HDET在许多方面表现出色，但其在高学习率下的稳定性依赖于周期性的参数平均，这可能在某些情况下增加通信开销。未来的研究方向包括进一步优化HDET的通信效率，探索其在不同任务和数据集上的适用性。

深度分析

研究背景

近年来，随着深度学习模型规模的不断扩大，学习率的选择对模型训练效果的影响愈发显著。传统的学习率计划，如一周期退火、余弦衰减和线性预热衰减，通常需要在训练前固定，这限制了模型在训练过程中的自适应能力。此外，网格搜索等方法虽然可以帮助找到较优的学习率计划，但其计算成本高昂，且在模型或数据集规模变化时可能不再适用。为了应对这些挑战，研究人员不断探索新的学习率自适应方法，如超梯度下降、L4和无调度等，然而这些方法大多依赖于梯度信息，无法充分利用现有的硬件资源。

核心问题

在大规模模型训练中，如何高效探索学习率空间是一个关键问题。传统的学习率计划需要在训练前固定，这限制了模型在训练过程中的自适应能力。此外，网格搜索等方法虽然可以帮助找到较优的学习率计划，但其计算成本高昂，且在模型或数据集规模变化时可能不再适用。因此，如何在不增加硬件开销的情况下，实现学习率的同时探索和自适应调整，是一个亟待解决的难题。

核心创新

HDET方法的核心创新在于其利用现有的GPU副本进行学习率的同时探索，而无需额外的硬件开销。具体而言：

1. HDET在训练过程中交替进行fan-out和converge两个阶段，使每个副本在一个对称的学习率范围内独立训练，并通过AllReduce进行参数平均。

2. 自动学习率控制器利用副本间的相对训练损失作为性能信号，通过无梯度的动量元更新来调整共享的基础计划。

3. HDET框架的通用性使其能够探索任何不改变模型架构的标量超参数，如dropout率、注意力温度和权重衰减系数。

方法详解

HDET方法的实现包括以下几个步骤：

�� 初始化阶段：为每个GPU副本分配一个对称的学习率范围，使其在fan-out阶段独立训练。
�� fan-out阶段：每个副本在一个对称的学习率范围内独立训练，探索不同的学习率轨迹。
�� converge阶段：每隔T步，通过AllReduce进行参数平均，合并所有副本的参数。
�� 自动学习率控制器：利用副本间的相对训练损失作为性能信号，通过无梯度的动量元更新来调整共享的基础计划。
�� 周期性参数平均：通过周期性的参数平均，防止高学习率下的训练发散。

实验设计

实验设计包括在生产级推荐系统上进行的多项测试，使用一年用户-项目交互日志数据。模型在三个参与任务上联合训练，使用的基线包括标准的DDP和不同学习率的配置。关键超参数包括学习率的最大值、扩散比率和自动学习率控制器的参数。实验还进行了消融研究，以验证各个组件的独立贡献。

结果分析

实验结果表明，HDET在生产级训练任务中显著提高了最终模型质量和收敛速度。例如，在使用8个H100 GPU的实验中，HDET实现了3.277的训练损失，相较于基线模型的3.294有显著提升。此外，HDET能够在不需要手动调节的情况下，自主发现每个参数组的学习率衰减顺序。这些结果表明，HDET在高学习率下训练稳定，而传统的DDP在相同条件下会导致发散。

应用场景

HDET方法在大规模推荐系统的生产环境中表现出色，特别是在需要高效探索超参数空间的场景下。其零硬件开销的特性使其适用于各种需要大规模分布式训练的任务，如自然语言处理和计算机视觉。此外，HDET的通用性使其能够探索任何不改变模型架构的标量超参数，进一步扩展了其应用范围。

局限与展望

尽管HDET在许多方面表现出色，但其在高学习率下的稳定性依赖于周期性的参数平均，这可能在某些情况下增加通信开销。此外，虽然HDET可以探索多种超参数，但其性能可能会受到特定任务或数据集的影响，需要进一步验证其通用性。未来的研究方向包括进一步优化HDET的通信效率，探索其在不同任务和数据集上的适用性。

通俗解读非专业人士也能看懂

想象一下你在一个厨房里，有一群厨师在同时做不同的菜。每个厨师都有自己的食谱和调料比例，但他们会定期聚在一起，分享各自的经验和技巧。这就像HDET方法中的fan-out和converge阶段。每个GPU副本就像一个厨师，他们在不同的学习率下独立训练，就像使用不同的调料比例做菜。定期的参数平均就像厨师们聚在一起分享经验，确保每个菜都能达到最佳的味道。自动学习率控制器就像一个总厨，他会根据每个菜的味道调整调料的比例，确保每道菜都能达到最佳的口感。通过这种方式，HDET方法实现了学习率的同时探索和自适应调整，就像在厨房里不断优化每道菜的味道一样。

简单解释像给14岁少年讲一样

嘿，小伙伴们！想象一下你在玩一个多人在线游戏，每个人都有自己的角色和技能。你们都在同一个地图上，但每个人都有不同的任务和策略。HDET方法就像这个游戏中的一个新功能，它让每个玩家可以在不改变角色的情况下探索不同的技能组合。每隔一段时间，所有玩家都会聚在一起，分享他们的经验和战术，就像在游戏中开个小会，讨论下一步的策略。这种方法不仅让每个玩家都能更好地发挥自己的角色，还能让整个团队在游戏中表现得更好。通过这种方式，HDET方法帮助大模型在训练中找到最佳的学习率组合，就像在游戏中找到最佳的技能组合一样。

术语表

超参数发散集成训练 (HDET)

一种利用现有GPU副本进行学习率同时探索的方法，通过fan-out和converge阶段实现零硬件开销的超参数优化。

本文提出的核心方法，用于提高大模型训练的优化质量和泛化能力。

fan-out阶段

HDET方法中的一个阶段，每个GPU副本在一个对称的学习率范围内独立训练，探索不同的学习率轨迹。

用于在训练过程中探索不同的学习率配置。

converge阶段

HDET方法中的一个阶段，每隔T步通过AllReduce进行参数平均，合并所有副本的参数。

用于防止高学习率下的训练发散。

自动学习率控制器

HDET方法中的一个组件，利用副本间的相对训练损失作为性能信号，通过无梯度的动量元更新来调整共享的基础计划。

用于实现学习率的自适应调整。

AllReduce

一种分布式计算中的通信操作，用于在多个GPU之间进行参数平均。

在HDET方法中用于合并所有副本的参数。

学习率计划

在训练过程中用于调整学习率的策略，如一周期退火、余弦衰减和线性预热衰减。

传统方法中需要在训练前固定，限制了模型的自适应能力。

无梯度优化

一种不依赖梯度信息的优化方法，利用其他信号进行参数调整。

HDET方法中用于调整学习率的方式。

动量元更新

一种利用动量信息进行参数更新的方法，常用于优化算法中。

在HDET方法中用于调整学习率。

扩散比率

在HDET方法中用于定义学习率范围的参数，决定了fan-out阶段的学习率配置。

用于控制学习率的探索范围。

周期性参数平均

一种通过定期进行参数平均来防止训练发散的方法。

在HDET方法中用于提高训练的稳定性。

生产级推荐系统

一种用于大规模推荐任务的系统，通常需要高效的超参数优化。

HDET方法的实验环境。

消融研究

一种通过移除或修改某些组件来验证其独立贡献的实验方法。

用于验证HDET方法中各个组件的独立贡献。

高学习率

在训练过程中使用较大的学习率，通常会加快收敛速度，但可能导致不稳定。

HDET方法中通过周期性参数平均来防止发散。

学习率衰减顺序

在训练过程中不同参数组的学习率衰减顺序，影响模型的优化效果。

HDET方法中通过自动学习率控制器自主发现。

大规模分布式训练

一种在多个GPU上并行进行模型训练的方法，通常用于大模型的训练。

HDET方法的应用场景。

开放问题这项研究留下的未解疑问

1 如何进一步优化HDET方法的通信效率，以减少周期性参数平均带来的开销？目前的实现可能在某些情况下增加通信负担，需要探索更高效的参数同步策略。
2 HDET方法在不同任务和数据集上的通用性如何？虽然在生产级推荐系统中表现出色，但其在其他领域的适用性仍需验证。
3 自动学习率控制器在极端学习率变化下的适应能力如何？在初始阶段可能出现不稳定，需要进一步研究其在不同学习率条件下的表现。
4 如何结合其他优化算法，如Adam的参数自适应调整，以进一步提升HDET的性能？这可能为超参数优化提供新的思路。
5 在更大规模的数据集上应用HDET的效果如何？随着数据集规模的增加，HDET的性能和稳定性可能会受到影响，需要进一步研究。

应用场景

近期应用

大规模推荐系统

HDET方法可用于大规模推荐系统的生产环境，通过高效探索超参数空间，提高模型的优化质量和泛化能力。

自然语言处理

在自然语言处理任务中，HDET方法可以帮助探索不同的学习率配置，提高模型在大规模数据集上的表现。

计算机视觉

HDET方法在计算机视觉任务中同样适用，特别是在需要大规模分布式训练的场景下。

远期愿景

自动化超参数优化

HDET方法的通用性使其能够探索任何不改变模型架构的标量超参数，未来可能成为自动化超参数优化的标准方法。

深度学习框架设计

HDET方法为大规模分布式训练提供了一种新的视角，可能会影响未来的深度学习框架设计，推动更高效的训练方法。

原文摘要

Training large neural networks with data-parallel stochastic gradient descent allocates N GPU replicas to compute effectively identical updates -- a practice that leaves the rich space of learning rate configurations entirely unexplored during training. We propose Hyperparameter-Divergent Ensemble Training (HDET), a method that repurposes these replicas for simultaneous learning rate exploration at negligible communication overhead. HDET operates in alternating phases: a fan-out stage in which replicas train independently under a structured, symmetric spread of learning rates, and a converge stage in which parameters are averaged across all replicas via AllReduce every T steps. Building on this ensemble substrate, we further propose an automatic learning rate (auto-LR) controller that treats the relative training loss across replicas as a performance signal, updating the shared base schedule toward higher-performing configurations via a momentum-based gradient-free meta-update. The combined method produces a self-adapting learning rate schedule that improves both optimization quality and generalization without additional hyperparameter sweeps or training budget. Crucially, the framework generalizes beyond learning rate: any scalar hyperparameter that does not alter model architecture -- such as dropout rate, attention scale temperature, or weight-decay coefficient -- can be explored across replicas using the same fan-out/converge protocol, with inter-replica loss differences serving as zero-order hypergradients that guide the search direction. HDET is implemented as a drop-in replacement for PyTorch's OneCycleLR scheduler, requiring no changes to model architecture, optimizer, or data pipeline.

cs.LG cs.AI

参考文献 (20)

PyTorch: An Imperative Style, High-Performance Deep Learning Library

Adam Paszke, Sam Gross, Francisco Massa 等

2019 51354 引用 ⭐ 高影响力查看解读 →

Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles

Balaji Lakshminarayanan, A. Pritzel, C. Blundell

2016 7328 引用查看解读 →

DiLoCo: Distributed Low-Communication Training of Language Models

Arthur Douillard, Qixuang Feng, Andrei A. Rusu 等

2023 94 引用查看解读 →

L4: Practical loss-based stepsize adaptation for deep learning

Michal Rolinek, G. Martius

2018 68 引用查看解读 →

Learning-Rate-Free Learning by D-Adaptation

Aaron Defazio, Konstantin Mishchenko

2023 117 引用查看解读 →

Natural Evolution Strategies

Daan Wierstra, T. Schaul, Jan Peters 等

2008 1004 引用

Deep learning with Elastic Averaging SGD

Sixin Zhang, A. Choromańska, Yann LeCun

2014 640 引用查看解读 →

Local SGD with Periodic Averaging: Tighter Analysis and Adaptive Synchronization

Farzin Haddadpour, Mohammad Mahdi Kamani, M. Mahdavi 等

2019 224 引用查看解读 →

Averaging Weights Leads to Wider Optima and Better Generalization

Pavel Izmailov, Dmitrii Podoprikhin, T. Garipov 等

2018 1978 引用查看解读 →

Learning with Random Learning Rates

Léonard Blier, Pierre Wolinski, Y. Ollivier

2018 22 引用查看解读 →

SGDR: Stochastic Gradient Descent with Warm Restarts

I. Loshchilov, F. Hutter

2016 10287 引用查看解读 →

Population Based Training of Neural Networks

Max Jaderberg, Valentin Dalibard, Simon Osindero 等

2017 857 引用查看解读 →

DoG is SGD's Best Friend: A Parameter-Free Dynamic Step Size Schedule

Maor Ivgi, Oliver Hinder, Y. Carmon

2023 98 引用查看解读 →

Stochastic Weight Averaging in Parallel: Large-Batch Training that Generalizes Well

Vipul Gupta, Santiago Akle Serrano, D. DeCoste

2020 78 引用查看解读 →

Super-convergence: very fast training of neural networks using large learning rates

L. Smith, Nicholay Topin

2018 1701 引用

Deep Ensembles: A Loss Landscape Perspective

Stanislav Fort, Huiyi Hu, Balaji Lakshminarayanan

2019 732 引用查看解读 →

The Road Less Scheduled

Aaron Defazio, Xingyu Yang, Harsh Mehta 等

2024 147 引用查看解读 →

Denoising Diffusion Probabilistic Models

Jonathan Ho, Ajay Jain, P. Abbeel

2020 29771 引用查看解读 →

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

Mitchell Wortsman, Gabriel Ilharco, S. Gadre 等

2022 1455 引用查看解读 →

Online Learning Rate Adaptation with Hypergradient Descent

A. G. Baydin, R. Cornish, David Martínez-Rubio 等

2017 277 引用查看解读 →

Scalable Hyperparameter-Divergent Ensemble Training with Automatic Learning Rate Exploration for Large Models

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

超参数发散集成训练 (HDET)

fan-out阶段

converge阶段

自动学习率控制器

AllReduce

学习率计划

无梯度优化

动量元更新

扩散比率

周期性参数平均

生产级推荐系统

消融研究

高学习率

学习率衰减顺序

大规模分布式训练

开放问题 这项研究留下的未解疑问

应用场景

近期应用

大规模推荐系统

自然语言处理

计算机视觉

远期愿景

自动化超参数优化

深度学习框架设计

原文摘要

参考文献 (20)

相关论文

Efficient learning by implicit exploration in bandit problems with side observations

Necessary and sufficient conditions for universality of Kolmogorov-Arnold networks

Collocation-based Robust Physics Informed Neural Networks for time-dependent simulations of pollution propagation under thermal inversion conditions on Spitsbergen

Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection

Neural Recovery of Historical Lexical Structure in Bantu Languages from Modern Data

Zero-Shot Morphological Discovery in Low-Resource Bantu Languages via Cross-Lingual Transfer and Unsupervised Clustering

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问