Scalable Hyperparameter-Divergent Ensemble Training with Automatic Learning Rate Exploration for Large Models

TL;DR

提出HDET方法,通过自动学习率探索提高大模型训练的优化质量和泛化能力。

cs.LG 🔴 高级 2026-04-28 25 次浏览
Hailing Cheng Tao Huang Chen Zhu Antonio Alonso
超参数 学习率 大模型 自动化 并行计算

核心发现

方法论

本文提出了一种名为超参数发散集成训练(HDET)的新方法,该方法利用现有的GPU副本进行学习率的同时探索,而无需额外的硬件开销。HDET在训练过程中交替进行两个阶段:在fan-out阶段,每个副本在一个对称的学习率范围内独立训练;在converge阶段,每隔T步通过AllReduce进行参数平均。基于此集成框架,本文还提出了一种自动学习率控制器,利用副本间的相对训练损失作为性能信号,通过无梯度的动量元更新来调整共享的基础计划。该方法无需额外的超参数搜索或训练预算,便可生成自适应的学习率计划,提升优化质量和泛化能力。

关键结果

  • HDET方法在生产级训练任务中显著提高了最终模型质量和收敛速度。例如,在使用8个H100 GPU的实验中,HDET实现了3.277的训练损失,相较于基线模型的3.294有显著提升。
  • 通过自动学习率控制器,HDET能够在不需要手动调节的情况下,自主发现每个参数组的学习率衰减顺序,这在大规模推荐系统的生产环境中表现出色。
  • 实验表明,HDET在高学习率下训练稳定,而传统的DDP在相同条件下会导致发散。

研究意义

HDET方法在大模型训练中具有重要意义,尤其是在需要高效探索超参数空间的场景下。传统方法通常需要耗费大量计算资源进行网格搜索,而HDET通过利用现有的GPU副本实现了零硬件开销的超参数探索。这一方法不仅提高了模型的优化质量和泛化能力,还为大规模分布式训练提供了一种新的视角,可能会影响未来的深度学习框架设计。

技术贡献

HDET方法的技术贡献在于其将现有的DDP副本转化为结构化的学习率探索集成体,而无需额外的硬件开销。通过fan-out/converge循环和自动学习率控制器,HDET实现了在线的学习率自适应调整,消除了传统方法中对学习率计划的先验选择需求。此外,HDET框架的通用性使其能够探索任何不改变模型架构的标量超参数,如dropout率、注意力温度和权重衰减系数。

新颖性

HDET是首个利用现有GPU副本进行学习率同时探索的方法。与现有方法不同,HDET不依赖梯度信息,而是利用副本间的损失差异作为信号进行无梯度优化。这种创新的探索方式不仅提高了训练的稳定性和效率,还为超参数优化提供了新的思路。

局限性

  • HDET方法在高学习率下的稳定性依赖于周期性的参数平均,这可能在某些情况下增加通信开销。
  • 虽然HDET可以探索多种超参数,但其性能可能会受到特定任务或数据集的影响,需要进一步验证其通用性。
  • 在某些情况下,自动学习率控制器可能无法快速适应极端的学习率变化,导致初始阶段的训练不稳定。

未来方向

未来的研究方向包括进一步优化HDET的通信效率,探索其在不同任务和数据集上的适用性。此外,结合其他优化算法,如Adam的参数自适应调整,可能会进一步提升HDET的性能。研究如何在更大规模的数据集上应用HDET也是一个值得探索的方向。

AI 总览摘要

在深度学习领域,学习率的选择对大模型的训练效果至关重要。然而,现有的方法通常需要在训练前固定学习率计划,这限制了模型在训练过程中的自适应能力。传统的网格搜索方法不仅耗时耗力,而且在模型或数据集规模变化时可能不再适用。

为了解决这一问题,本文提出了超参数发散集成训练(HDET)方法。HDET通过将现有的GPU副本用于学习率的同时探索,实现了零硬件开销的超参数优化。该方法在训练过程中交替进行两个阶段:在fan-out阶段,每个副本在一个对称的学习率范围内独立训练;在converge阶段,每隔T步通过AllReduce进行参数平均。

HDET的核心技术原理在于其自动学习率控制器,该控制器利用副本间的相对训练损失作为性能信号,通过无梯度的动量元更新来调整共享的基础计划。这种创新的探索方式不仅提高了训练的稳定性和效率,还为超参数优化提供了新的思路。

实验结果表明,HDET在生产级训练任务中显著提高了最终模型质量和收敛速度。例如,在使用8个H100 GPU的实验中,HDET实现了3.277的训练损失,相较于基线模型的3.294有显著提升。此外,HDET能够在不需要手动调节的情况下,自主发现每个参数组的学习率衰减顺序。

HDET方法在大模型训练中具有重要意义,尤其是在需要高效探索超参数空间的场景下。传统方法通常需要耗费大量计算资源进行网格搜索,而HDET通过利用现有的GPU副本实现了零硬件开销的超参数探索。这一方法不仅提高了模型的优化质量和泛化能力,还为大规模分布式训练提供了一种新的视角。

尽管HDET在许多方面表现出色,但其在高学习率下的稳定性依赖于周期性的参数平均,这可能在某些情况下增加通信开销。未来的研究方向包括进一步优化HDET的通信效率,探索其在不同任务和数据集上的适用性。

深度分析

研究背景

近年来,随着深度学习模型规模的不断扩大,学习率的选择对模型训练效果的影响愈发显著。传统的学习率计划,如一周期退火、余弦衰减和线性预热衰减,通常需要在训练前固定,这限制了模型在训练过程中的自适应能力。此外,网格搜索等方法虽然可以帮助找到较优的学习率计划,但其计算成本高昂,且在模型或数据集规模变化时可能不再适用。为了应对这些挑战,研究人员不断探索新的学习率自适应方法,如超梯度下降、L4和无调度等,然而这些方法大多依赖于梯度信息,无法充分利用现有的硬件资源。

核心问题

在大规模模型训练中,如何高效探索学习率空间是一个关键问题。传统的学习率计划需要在训练前固定,这限制了模型在训练过程中的自适应能力。此外,网格搜索等方法虽然可以帮助找到较优的学习率计划,但其计算成本高昂,且在模型或数据集规模变化时可能不再适用。因此,如何在不增加硬件开销的情况下,实现学习率的同时探索和自适应调整,是一个亟待解决的难题。

核心创新

HDET方法的核心创新在于其利用现有的GPU副本进行学习率的同时探索,而无需额外的硬件开销。具体而言:

1. HDET在训练过程中交替进行fan-out和converge两个阶段,使每个副本在一个对称的学习率范围内独立训练,并通过AllReduce进行参数平均。

2. 自动学习率控制器利用副本间的相对训练损失作为性能信号,通过无梯度的动量元更新来调整共享的基础计划。

3. HDET框架的通用性使其能够探索任何不改变模型架构的标量超参数,如dropout率、注意力温度和权重衰减系数。

方法详解

HDET方法的实现包括以下几个步骤:

  • �� 初始化阶段:为每个GPU副本分配一个对称的学习率范围,使其在fan-out阶段独立训练。
  • �� fan-out阶段:每个副本在一个对称的学习率范围内独立训练,探索不同的学习率轨迹。
  • �� converge阶段:每隔T步,通过AllReduce进行参数平均,合并所有副本的参数。
  • �� 自动学习率控制器:利用副本间的相对训练损失作为性能信号,通过无梯度的动量元更新来调整共享的基础计划。
  • �� 周期性参数平均:通过周期性的参数平均,防止高学习率下的训练发散。

实验设计

实验设计包括在生产级推荐系统上进行的多项测试,使用一年用户-项目交互日志数据。模型在三个参与任务上联合训练,使用的基线包括标准的DDP和不同学习率的配置。关键超参数包括学习率的最大值、扩散比率和自动学习率控制器的参数。实验还进行了消融研究,以验证各个组件的独立贡献。

结果分析

实验结果表明,HDET在生产级训练任务中显著提高了最终模型质量和收敛速度。例如,在使用8个H100 GPU的实验中,HDET实现了3.277的训练损失,相较于基线模型的3.294有显著提升。此外,HDET能够在不需要手动调节的情况下,自主发现每个参数组的学习率衰减顺序。这些结果表明,HDET在高学习率下训练稳定,而传统的DDP在相同条件下会导致发散。

应用场景

HDET方法在大规模推荐系统的生产环境中表现出色,特别是在需要高效探索超参数空间的场景下。其零硬件开销的特性使其适用于各种需要大规模分布式训练的任务,如自然语言处理和计算机视觉。此外,HDET的通用性使其能够探索任何不改变模型架构的标量超参数,进一步扩展了其应用范围。

局限与展望

尽管HDET在许多方面表现出色,但其在高学习率下的稳定性依赖于周期性的参数平均,这可能在某些情况下增加通信开销。此外,虽然HDET可以探索多种超参数,但其性能可能会受到特定任务或数据集的影响,需要进一步验证其通用性。未来的研究方向包括进一步优化HDET的通信效率,探索其在不同任务和数据集上的适用性。

通俗解读 非专业人士也能看懂

想象一下你在一个厨房里,有一群厨师在同时做不同的菜。每个厨师都有自己的食谱和调料比例,但他们会定期聚在一起,分享各自的经验和技巧。这就像HDET方法中的fan-out和converge阶段。每个GPU副本就像一个厨师,他们在不同的学习率下独立训练,就像使用不同的调料比例做菜。定期的参数平均就像厨师们聚在一起分享经验,确保每个菜都能达到最佳的味道。自动学习率控制器就像一个总厨,他会根据每个菜的味道调整调料的比例,确保每道菜都能达到最佳的口感。通过这种方式,HDET方法实现了学习率的同时探索和自适应调整,就像在厨房里不断优化每道菜的味道一样。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!想象一下你在玩一个多人在线游戏,每个人都有自己的角色和技能。你们都在同一个地图上,但每个人都有不同的任务和策略。HDET方法就像这个游戏中的一个新功能,它让每个玩家可以在不改变角色的情况下探索不同的技能组合。每隔一段时间,所有玩家都会聚在一起,分享他们的经验和战术,就像在游戏中开个小会,讨论下一步的策略。这种方法不仅让每个玩家都能更好地发挥自己的角色,还能让整个团队在游戏中表现得更好。通过这种方式,HDET方法帮助大模型在训练中找到最佳的学习率组合,就像在游戏中找到最佳的技能组合一样。

术语表

超参数发散集成训练 (HDET)

一种利用现有GPU副本进行学习率同时探索的方法,通过fan-out和converge阶段实现零硬件开销的超参数优化。

本文提出的核心方法,用于提高大模型训练的优化质量和泛化能力。

fan-out阶段

HDET方法中的一个阶段,每个GPU副本在一个对称的学习率范围内独立训练,探索不同的学习率轨迹。

用于在训练过程中探索不同的学习率配置。

converge阶段

HDET方法中的一个阶段,每隔T步通过AllReduce进行参数平均,合并所有副本的参数。

用于防止高学习率下的训练发散。

自动学习率控制器

HDET方法中的一个组件,利用副本间的相对训练损失作为性能信号,通过无梯度的动量元更新来调整共享的基础计划。

用于实现学习率的自适应调整。

AllReduce

一种分布式计算中的通信操作,用于在多个GPU之间进行参数平均。

在HDET方法中用于合并所有副本的参数。

学习率计划

在训练过程中用于调整学习率的策略,如一周期退火、余弦衰减和线性预热衰减。

传统方法中需要在训练前固定,限制了模型的自适应能力。

无梯度优化

一种不依赖梯度信息的优化方法,利用其他信号进行参数调整。

HDET方法中用于调整学习率的方式。

动量元更新

一种利用动量信息进行参数更新的方法,常用于优化算法中。

在HDET方法中用于调整学习率。

扩散比率

在HDET方法中用于定义学习率范围的参数,决定了fan-out阶段的学习率配置。

用于控制学习率的探索范围。

周期性参数平均

一种通过定期进行参数平均来防止训练发散的方法。

在HDET方法中用于提高训练的稳定性。

生产级推荐系统

一种用于大规模推荐任务的系统,通常需要高效的超参数优化。

HDET方法的实验环境。

消融研究

一种通过移除或修改某些组件来验证其独立贡献的实验方法。

用于验证HDET方法中各个组件的独立贡献。

高学习率

在训练过程中使用较大的学习率,通常会加快收敛速度,但可能导致不稳定。

HDET方法中通过周期性参数平均来防止发散。

学习率衰减顺序

在训练过程中不同参数组的学习率衰减顺序,影响模型的优化效果。

HDET方法中通过自动学习率控制器自主发现。

大规模分布式训练

一种在多个GPU上并行进行模型训练的方法,通常用于大模型的训练。

HDET方法的应用场景。

开放问题 这项研究留下的未解疑问

  • 1 如何进一步优化HDET方法的通信效率,以减少周期性参数平均带来的开销?目前的实现可能在某些情况下增加通信负担,需要探索更高效的参数同步策略。
  • 2 HDET方法在不同任务和数据集上的通用性如何?虽然在生产级推荐系统中表现出色,但其在其他领域的适用性仍需验证。
  • 3 自动学习率控制器在极端学习率变化下的适应能力如何?在初始阶段可能出现不稳定,需要进一步研究其在不同学习率条件下的表现。
  • 4 如何结合其他优化算法,如Adam的参数自适应调整,以进一步提升HDET的性能?这可能为超参数优化提供新的思路。
  • 5 在更大规模的数据集上应用HDET的效果如何?随着数据集规模的增加,HDET的性能和稳定性可能会受到影响,需要进一步研究。

应用场景

近期应用

大规模推荐系统

HDET方法可用于大规模推荐系统的生产环境,通过高效探索超参数空间,提高模型的优化质量和泛化能力。

自然语言处理

在自然语言处理任务中,HDET方法可以帮助探索不同的学习率配置,提高模型在大规模数据集上的表现。

计算机视觉

HDET方法在计算机视觉任务中同样适用,特别是在需要大规模分布式训练的场景下。

远期愿景

自动化超参数优化

HDET方法的通用性使其能够探索任何不改变模型架构的标量超参数,未来可能成为自动化超参数优化的标准方法。

深度学习框架设计

HDET方法为大规模分布式训练提供了一种新的视角,可能会影响未来的深度学习框架设计,推动更高效的训练方法。

原文摘要

Training large neural networks with data-parallel stochastic gradient descent allocates N GPU replicas to compute effectively identical updates -- a practice that leaves the rich space of learning rate configurations entirely unexplored during training. We propose Hyperparameter-Divergent Ensemble Training (HDET), a method that repurposes these replicas for simultaneous learning rate exploration at negligible communication overhead. HDET operates in alternating phases: a fan-out stage in which replicas train independently under a structured, symmetric spread of learning rates, and a converge stage in which parameters are averaged across all replicas via AllReduce every T steps. Building on this ensemble substrate, we further propose an automatic learning rate (auto-LR) controller that treats the relative training loss across replicas as a performance signal, updating the shared base schedule toward higher-performing configurations via a momentum-based gradient-free meta-update. The combined method produces a self-adapting learning rate schedule that improves both optimization quality and generalization without additional hyperparameter sweeps or training budget. Crucially, the framework generalizes beyond learning rate: any scalar hyperparameter that does not alter model architecture -- such as dropout rate, attention scale temperature, or weight-decay coefficient -- can be explored across replicas using the same fan-out/converge protocol, with inter-replica loss differences serving as zero-order hypergradients that guide the search direction. HDET is implemented as a drop-in replacement for PyTorch's OneCycleLR scheduler, requiring no changes to model architecture, optimizer, or data pipeline.

cs.LG cs.AI

参考文献 (20)

PyTorch: An Imperative Style, High-Performance Deep Learning Library

Adam Paszke, Sam Gross, Francisco Massa 等

2019 51354 引用 ⭐ 高影响力 查看解读 →

Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles

Balaji Lakshminarayanan, A. Pritzel, C. Blundell

2016 7328 引用 查看解读 →

DiLoCo: Distributed Low-Communication Training of Language Models

Arthur Douillard, Qixuang Feng, Andrei A. Rusu 等

2023 94 引用 查看解读 →

L4: Practical loss-based stepsize adaptation for deep learning

Michal Rolinek, G. Martius

2018 68 引用 查看解读 →

Learning-Rate-Free Learning by D-Adaptation

Aaron Defazio, Konstantin Mishchenko

2023 117 引用 查看解读 →

Natural Evolution Strategies

Daan Wierstra, T. Schaul, Jan Peters 等

2008 1004 引用

Deep learning with Elastic Averaging SGD

Sixin Zhang, A. Choromańska, Yann LeCun

2014 640 引用 查看解读 →

Local SGD with Periodic Averaging: Tighter Analysis and Adaptive Synchronization

Farzin Haddadpour, Mohammad Mahdi Kamani, M. Mahdavi 等

2019 224 引用 查看解读 →

Averaging Weights Leads to Wider Optima and Better Generalization

Pavel Izmailov, Dmitrii Podoprikhin, T. Garipov 等

2018 1978 引用 查看解读 →

Learning with Random Learning Rates

Léonard Blier, Pierre Wolinski, Y. Ollivier

2018 22 引用 查看解读 →

SGDR: Stochastic Gradient Descent with Warm Restarts

I. Loshchilov, F. Hutter

2016 10287 引用 查看解读 →

Population Based Training of Neural Networks

Max Jaderberg, Valentin Dalibard, Simon Osindero 等

2017 857 引用 查看解读 →

DoG is SGD's Best Friend: A Parameter-Free Dynamic Step Size Schedule

Maor Ivgi, Oliver Hinder, Y. Carmon

2023 98 引用 查看解读 →

Stochastic Weight Averaging in Parallel: Large-Batch Training that Generalizes Well

Vipul Gupta, Santiago Akle Serrano, D. DeCoste

2020 78 引用 查看解读 →

Super-convergence: very fast training of neural networks using large learning rates

L. Smith, Nicholay Topin

2018 1701 引用

Deep Ensembles: A Loss Landscape Perspective

Stanislav Fort, Huiyi Hu, Balaji Lakshminarayanan

2019 732 引用 查看解读 →

The Road Less Scheduled

Aaron Defazio, Xingyu Yang, Harsh Mehta 等

2024 147 引用 查看解读 →

Denoising Diffusion Probabilistic Models

Jonathan Ho, Ajay Jain, P. Abbeel

2020 29771 引用 查看解读 →

Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time

Mitchell Wortsman, Gabriel Ilharco, S. Gadre 等

2022 1455 引用 查看解读 →

Online Learning Rate Adaptation with Hypergradient Descent

A. G. Baydin, R. Cornish, David Martínez-Rubio 等

2017 277 引用 查看解读 →