Routers Learn the Geometry of Their Experts: Geometric Coupling in Sparse Mixture-of-Experts

TL;DR

本文提出了一种无参数在线K-Means路由器,通过几何耦合实现有效的专家分配,降低负载不平衡,仅略微增加困惑度。

cs.LG 🔴 高级 2026-05-13 79 次浏览
Sagi Ahrac Noya Hochwald Mor Geva
稀疏专家混合 几何耦合 路由器 负载平衡 语言模型

核心发现

方法论

本文研究了稀疏专家混合(SMoE)模型中的路由决策机制,揭示了路由器与其对应专家之间的几何耦合关系。通过分析梯度,发现路由器权重和专家权重在相同的输入方向上接收梯度更新,仅在标量系数上有所不同。本文还提出了一种无参数的在线K-Means路由器,每个专家维护其接收的隐藏状态的运行平均值,并基于余弦相似性分配token。

关键结果

  • 在一个从头训练的1B SMoE模型中,路由器得分较高的专家神经元激活更强,表明路由决策在所选专家内部得到了反映。
  • 辅助负载平衡损失会打破路由器与专家的几何耦合,使不同路由器方向的相似性增加近三倍。
  • 无参数在线K-Means路由器在负载不平衡方面表现最佳,仅增加了适度的困惑度,表明几何耦合捕捉了路由器学习的实质部分。

研究意义

本研究通过揭示路由器与专家之间的几何耦合关系,为理解稀疏专家混合模型的路由决策提供了新的视角。通过几何耦合,路由器能够有效地分配任务,支持专家的专业化分工。此外,本文提出的无参数在线K-Means路由器在负载平衡方面表现出色,展示了几何耦合在路由器学习中的重要性。这一发现可能会影响未来的路由方法,促使其在训练过程中保留自然的路由器-专家几何结构。

技术贡献

本文的技术贡献在于揭示了稀疏专家混合模型中路由器与专家之间的几何耦合关系,并提出了一种无参数的在线K-Means路由器。这种路由器通过维护每个专家的隐藏状态的运行平均值,实现了有效的任务分配。此外,本文还分析了辅助负载平衡损失对几何耦合的影响,发现其会削弱路由器与专家之间的耦合关系。

新颖性

本文首次揭示了稀疏专家混合模型中路由器与专家之间的几何耦合关系,并提出了一种无参数的在线K-Means路由器。这一创新在于通过几何耦合实现了有效的任务分配,而无需依赖额外的参数或梯度更新。

局限性

  • 在某些情况下,辅助负载平衡损失可能会削弱路由器与专家之间的几何耦合,导致专家的专业化程度降低。
  • 本文的实验主要集中在1B SMoE模型,可能在更大规模的模型中表现不同。
  • 无参数在线K-Means路由器在困惑度上略有增加,可能影响某些应用场景的性能。

未来方向

未来的研究可以探索在更大规模的模型中应用几何耦合的效果,以及如何在不增加困惑度的情况下进一步优化无参数在线K-Means路由器。此外,还可以研究其他类型的负载平衡方法对几何耦合的影响,以提高专家的专业化程度。

AI 总览摘要

稀疏专家混合(SMoE)模型因其在扩展语言模型参数时不增加推理延迟的能力而备受关注。然而,其训练过程中的路由决策仍然是一个挑战,尤其是在路由集中于少数专家时,可能导致表示崩溃。本文通过几何视角研究了SMoE模型中的路由决策机制,揭示了路由器与其对应专家之间的几何耦合关系。

研究发现,路由器权重和专家权重在相同的输入方向上接收梯度更新,仅在标量系数上有所不同。这种几何耦合关系在路由动态中也得到了实证验证。在一个从头训练的1B SMoE模型中,路由器得分较高的专家神经元激活更强,表明路由决策在所选专家内部得到了反映。

然而,常用的辅助负载平衡损失会打破这种几何结构,通过在每个token上将输入导向的梯度分散到路由器权重上,使不同路由器方向的相似性增加近三倍。这削弱了路由器与专家之间的耦合关系,统一了专家特定的方向,侵蚀了耦合所产生的专业化。

为了解决这一问题,本文提出了一种无参数的在线K-Means路由器,其中每个专家维护其接收的隐藏状态的运行平均值,并基于余弦相似性分配token。与辅助损失和无损失平衡相比,这种路由器在负载不平衡方面表现最佳,仅增加了适度的困惑度,表明几何耦合捕捉了路由器学习的实质部分。

总的来说,本文的研究揭示了路由器如何形成支持有效分工的任务分配几何结构。更广泛地说,这表明未来的路由方法可能会受益于在训练过程中保留自然的路由器-专家几何结构。研究结果对学术界和工业界都有重要意义,可能会影响未来的路由方法设计。

深度解读

原文摘要

Sparse Mixture-of-Experts (SMoE) models enable scaling language models efficiently, but training them remains challenging, as routing can collapse onto few experts and auxiliary load-balancing losses can reduce specialization. Motivated by these hurdles, we study how routing decisions in SMoEs are formed mechanistically. First, we reveal a geometric coupling between routers and their corresponding experts. For a given token, the router weights for the selected expert and the expert weights processing it receive gradients along the same input direction, differing only in scalar coefficients. Thus, matched router--expert directions accumulate the same routed token history. This theoretical coupling also appears empirically in routing dynamics. In a $1$B SMoE trained from scratch, higher router scores predict stronger expert neuron activations, showing that routing decisions are mirrored inside the selected expert. Next, we analyze the effects of auxiliary load balancing on the router--expert geometric coupling, showing that such losses break this structure by spreading input-directed gradients across router weights, making distinct router directions nearly three times more similar to each other. Last, we demonstrate the centrality of geometric coupling for effective routing with a parameter-free online K-Means router, in which each expert maintains a running average of the hidden states routed to it and tokens are assigned based on cosine similarity. Compared with auxiliary-loss and loss-free balancing, this router achieves the lowest load imbalance with only a modest perplexity increase, indicating that geometric coupling captures a substantial part of what the router learns. Overall, our results explain how routers form assignment geometry that supports an effective division of labor.

cs.LG cs.CL

参考文献 (20)

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

W. Fedus, Barret Zoph, Noam Shazeer

2021 3848 引用 ⭐ 高影响力 查看解读 →

GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding

Dmitry Lepikhin, HyoukJoong Lee, Yuanzhong Xu 等

2020 1972 引用 ⭐ 高影响力 查看解读 →

Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts

Lean Wang, Huazuo Gao, Chenggang Zhao 等

2024 155 引用 ⭐ 高影响力 查看解读 →

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz 等

2017 4541 引用 ⭐ 高影响力 查看解读 →

Some methods for classification and analysis of multivariate observations

J. MacQueen

1967 30092 引用 ⭐ 高影响力

Decoding Knowledge Attribution in Mixture-of-Experts: A Framework of Basic-Refinement Collaboration and Efficiency Analysis

Junzhuo Li, Bo Wang, Xiuze Zhou 等

2025 3 引用 查看解读 →

A Closer Look into Mixture-of-Experts in Large Language Models

Ka Man Lo, Zeyu Huang, Zihan Qiu 等

2024 38 引用 查看解读 →

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

Leo Gao, Stella Biderman, Sid Black 等

2020 2786 引用 查看解读 →

Grassmannian Mixture-of-Experts: Concentration-Controlled Routing on Subspace Manifolds

Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma

2026 1 引用 查看解读 →

On the Benefits of Learning to Route in Mixture-of-Experts Models

Nishanth Dikkala, Nikhil Ghosh, Raghu Meka 等

2023 37 引用

StableMoE: Stable Routing Strategy for Mixture of Experts

Damai Dai, Li Dong, Shuming Ma 等

2022 115 引用 查看解读 →

Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models

Bowen Pan, Yikang Shen, Haokun Liu 等

2024 40 引用 查看解读 →

On the Representation Collapse of Sparse Mixture of Experts

Zewen Chi, Li Dong, Shaohan Huang 等

2022 178 引用 查看解读 →

Monkey Jump : MoE-Style PEFT for Efficient Multi-Task Learning

Nusrat Jahan Prottasha, Md. Kowsher, Chun-Nam Yu 等

2026 2 引用 查看解读 →

EMoE: Eigenbasis-Guided Routing for Mixture-of-Experts

Anzhe Cheng, Shukai Duan, Shixuan Li 等

2026 2 引用 查看解读 →

Advancing Expert Specialization for Better MoE

Hongcan Guo, Haolang Lu, Guoshun Nan 等

2025 29 引用 查看解读 →

Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer

Boan Liu, Liang Ding, Li Shen 等

2023 28 引用 查看解读 →

Mixture of Experts Made Intrinsically Interpretable

Xingyi Yang, Constantin Venhoff, Ashkan Khakzar 等

2025 17 引用 查看解读 →

Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

Sainbayar Sukhbaatar, Olga Golovneva, Vasu Sharma 等

2024 105 引用 查看解读 →

Latent Prototype Routing: Achieving Near-Perfect Load Balancing in Mixture-of-Experts

Jiajie Yang