MXNorm: Reusing MXFP block scales for efficient tensor normalisation

TL;DR

MXNorm通过重用MXFP8块缩放来高效归一化张量，减少32倍归约需求。

cs.LG 🔴 高级 2026-03-14 2 次浏览

Callum McLean Luke Y. Prince Alexandre Payot Paul Balança Carlo Luschi

高效性预训练量化张量归一化大模型

核心发现

方法论

本文提出了一种新型的张量归一化方法MXNorm，它通过重用MXFP8量化过程中计算的块缩放来估计RMS，从而实现高效的归一化。MXNorm作为RMSNorm的替代方案，减少了32倍的归约需求。该方法在Llama 3模型的预训练中进行了验证，模型参数分别为125M、1B和8B，结果显示与使用RMSNorm和MXFP8矩阵乘法的基线相比，训练精度损失极小。此外，使用torch.compile实现的MXNorm在实际内核加速中比RMSNorm快2.4倍。

关键结果

在Llama 3模型的预训练中，MXNorm在125M、1B和8B参数模型上与RMSNorm相比，训练精度损失极小，表明MXNorm能够有效替代RMSNorm。
使用torch.compile进行内核加速时，MXNorm比RMSNorm快2.4倍，这意味着在MXFP8格式下，Llama 3 8B变压器层的速度提高了1.3%，在NVFP4格式下提高了2.6%。
在8B参数模型上，MXNorm(p=2)的训练损失与RMSNorm相当，分别为2.126和2.132，而MXNorm(p=1)的最终损失较差，为2.175。

研究意义

MXNorm的提出在学术界和工业界具有重要意义。它解决了在低精度矩阵乘法加速显著提高的情况下，归约和元素级计算性能提升不足的问题。通过减少归约需求，MXNorm降低了计算开销，提高了模型训练的效率和速度。这一方法特别适用于大规模语言模型的预训练，能够在不显著损失精度的情况下，显著提高训练速度。

技术贡献

MXNorm的技术贡献在于其创新性地将归一化与MX量化过程相结合，减少了重复计算的开销。与现有的RMSNorm方法相比，MXNorm通过重用MXFP8块缩放来估计RMS，减少了32倍的归约需求。此外，MXNorm在实际内核加速中表现出显著的速度提升，展示了其在工程应用中的潜力。

新颖性

MXNorm的创新之处在于首次将归一化与MX量化过程相结合，重用MXFP8块缩放来估计RMS。这一方法与传统的RMSNorm方法相比，显著减少了计算开销，提升了训练效率。

局限性

MXNorm在较大规模模型上（如8B参数模型）的训练损失略高于RMSNorm，表明在某些情况下可能存在精度损失。
在高学习率下，MXNorm的稳定性较差，容易出现损失峰值。
MXNorm的性能依赖于特定的硬件和编译器优化，可能在不同平台上表现不一。

未来方向

未来的研究方向包括进一步优化MXNorm的稳定性，尤其是在高学习率下的表现。此外，可以探索MXNorm在其他类型的神经网络模型中的应用，以及在不同硬件平台上的性能表现。研究如何在不依赖特定硬件优化的情况下，进一步提高MXNorm的通用性和适应性也是一个值得关注的方向。

AI 总览摘要

在深度学习的快速发展中，矩阵乘法性能的提升一直是推动大规模模型训练的关键。然而，随着低精度矩阵乘法加速的显著提高，归约和元素级计算的性能提升却相对滞后，成为新的瓶颈。为了解决这一问题，本文提出了一种新型的张量归一化方法——MXNorm。MXNorm通过重用MXFP8量化过程中计算的块缩放来估计RMS，实现了高效的归一化，减少了32倍的归约需求。

MXNorm作为RMSNorm的替代方案，在Llama 3模型的预训练中进行了验证，模型参数分别为125M、1B和8B。实验结果显示，与使用RMSNorm和MXFP8矩阵乘法的基线相比，MXNorm在训练精度上损失极小。此外，使用torch.compile实现的MXNorm在实际内核加速中比RMSNorm快2.4倍，这意味着在MXFP8格式下，Llama 3 8B变压器层的速度提高了1.3%，在NVFP4格式下提高了2.6%。

MXNorm的核心技术原理在于将归一化与MX量化过程相结合，重用MXFP8块缩放来估计RMS。这一创新性的方法显著减少了重复计算的开销，提高了模型训练的效率和速度。通过减少归约需求，MXNorm降低了计算开销，特别适用于大规模语言模型的预训练，能够在不显著损失精度的情况下，显著提高训练速度。

然而，MXNorm也存在一些局限性。在较大规模模型上（如8B参数模型），MXNorm的训练损失略高于RMSNorm，表明在某些情况下可能存在精度损失。此外，在高学习率下，MXNorm的稳定性较差，容易出现损失峰值。这些问题需要在未来的研究中进一步解决。

总的来说，MXNorm的提出在学术界和工业界具有重要意义。它解决了在低精度矩阵乘法加速显著提高的情况下，归约和元素级计算性能提升不足的问题。未来的研究方向包括进一步优化MXNorm的稳定性，探索其在其他类型的神经网络模型中的应用，以及在不同硬件平台上的性能表现。

深度分析

研究背景

近年来，深度学习在自然语言处理、计算机视觉和科学领域（如分子生物学）取得了显著的进展。这一进展得益于AI加速器能力的飞跃，特别是在低精度矩阵乘法加速方面的显著提升。在过去的八年中，GPU在低精度矩阵乘法方面的加速提高了80倍，这使得研究人员和从业者能够扩大变压器风格神经网络的预训练规模，并从大量未标记的数据中学习。然而，随着矩阵乘法不再成为吞吐量的瓶颈，模型架构的其他组件成为新的瓶颈。特别是，AI加速器的其他方面未能跟上矩阵乘法吞吐量的提升。例如，元素级操作和归约受限于GPU中的内存带宽和CUDA核心吞吐量，而这些在过去八年中仅分别提高了8.9倍和5.1倍。此外，随着即将发布的GPU架构，这一差距将进一步扩大。在某些情况下，这些操作可以通过与矩阵乘法重叠来隐藏，但其他操作在实践中需要太多内存以至于无法流水线化。因此，我们认为社区需要考虑新的构建块，以减少开销。

核心问题

矩阵乘法性能的提升虽然解决了深度学习工作负载扩展的瓶颈问题，但归约和元素级计算的性能提升却相对滞后，成为新的瓶颈。这些操作受限于内存带宽和CUDA核心吞吐量，而这些在过去八年中仅分别提高了8.9倍和5.1倍。此外，随着即将发布的GPU架构，这一差距将进一步扩大。在某些情况下，这些操作可以通过与矩阵乘法重叠来隐藏，但其他操作在实践中需要太多内存以至于无法流水线化。因此，社区需要考虑新的构建块，以减少开销。

核心创新

MXNorm的核心创新在于将归一化与MX量化过程相结合，重用MXFP8块缩放来估计RMS。这一方法显著减少了重复计算的开销，提高了模型训练的效率和速度。具体来说：

�� MXNorm通过重用MXFP8量化过程中计算的块缩放来估计RMS，实现了高效的归一化，减少了32倍的归约需求。

�� MXNorm作为RMSNorm的替代方案，在Llama 3模型的预训练中进行了验证，实验结果显示与使用RMSNorm和MXFP8矩阵乘法的基线相比，训练精度损失极小。

�� 使用torch.compile实现的MXNorm在实际内核加速中比RMSNorm快2.4倍，这意味着在MXFP8格式下，Llama 3 8B变压器层的速度提高了1.3%，在NVFP4格式下提高了2.6%。

方法详解

MXNorm的实现过程如下：

�� 首先，MXNorm通过重用MXFP8量化过程中计算的块缩放来估计RMS。这一过程减少了32倍的归约需求。

�� 然后，MXNorm在Llama 3模型的预训练中进行了验证，模型参数分别为125M、1B和8B。实验结果显示与使用RMSNorm和MXFP8矩阵乘法的基线相比，训练精度损失极小。

�� 最后，使用torch.compile实现的MXNorm在实际内核加速中比RMSNorm快2.4倍，这意味着在MXFP8格式下，Llama 3 8B变压器层的速度提高了1.3%，在NVFP4格式下提高了2.6%。

实验设计

实验设计包括在Llama 3模型的预训练中验证MXNorm的性能，模型参数分别为125M、1B和8B。使用的基线是RMSNorm和MXFP8矩阵乘法。实验中使用torch.compile实现MXNorm的内核加速，并在实际硬件上进行测试。此外，还进行了学习率敏感性测试，以评估MXNorm在不同学习率下的稳定性和性能。实验结果显示，MXNorm在训练精度上损失极小，并在内核加速中表现出显著的速度提升。

结果分析

实验结果表明，MXNorm在Llama 3模型的预训练中表现出色。在125M、1B和8B参数模型上，与RMSNorm相比，MXNorm的训练精度损失极小。此外，使用torch.compile进行内核加速时，MXNorm比RMSNorm快2.4倍，这意味着在MXFP8格式下，Llama 3 8B变压器层的速度提高了1.3%，在NVFP4格式下提高了2.6%。在8B参数模型上，MXNorm(p=2)的训练损失与RMSNorm相当，分别为2.126和2.132，而MXNorm(p=1)的最终损失较差，为2.175。

应用场景

MXNorm的应用场景包括大规模语言模型的预训练，特别是在需要高效归一化和减少计算开销的情况下。MXNorm能够在不显著损失精度的情况下，显著提高训练速度。此外，MXNorm在实际内核加速中表现出色，适用于需要高性能计算的场景，如自然语言处理和计算机视觉。

局限与展望

虽然MXNorm在实验中表现出色，但也存在一些局限性。在较大规模模型上（如8B参数模型），MXNorm的训练损失略高于RMSNorm，表明在某些情况下可能存在精度损失。此外，在高学习率下，MXNorm的稳定性较差，容易出现损失峰值。这些问题需要在未来的研究中进一步解决。

通俗解读非专业人士也能看懂

想象一下你在厨房里做饭。传统的做法是每次做完一道菜后都要清洗所有的锅碗瓢盆，这就像是RMSNorm，每次都要重新计算所有的归一化参数。而MXNorm就像是一个聪明的厨师，他会在做菜的过程中重复使用一些已经清洗过的工具，比如用同一个锅来煮不同的菜。这样不仅节省了时间，还减少了清洗的次数。同样，MXNorm通过重用在MXFP8量化过程中计算的块缩放来估计RMS，从而减少了计算的开销。这样一来，你就能更快地做出更多的菜，而不需要每次都从头开始清洗所有的工具。这个方法特别适合需要快速处理大量数据的场景，比如大规模语言模型的训练。

简单解释像给14岁少年讲一样

嘿，小伙伴们！今天我要给你们讲一个关于超级计算机的故事。想象一下，你在玩一个超大的拼图游戏，每块拼图都很小，你需要把它们拼在一起才能看到完整的图案。传统的方法就像是每次都要把所有的拼图块重新整理一遍，这样会很慢，对吧？

现在，有一个叫做MXNorm的超级聪明的助手，他有一个绝妙的主意！他发现可以重复使用一些已经整理好的拼图块，这样就不用每次都从头开始整理了。就像是你在做作业时，发现可以用上次整理好的笔记，这样就能更快地完成作业。

这个MXNorm助手特别擅长处理大规模的数据，就像是超级计算机在处理复杂的语言模型时，可以更快地完成任务，而不需要每次都重新计算所有的数据。

所以，下次你在玩拼图游戏或者做作业时，记得试试这个聪明的方法哦！它会让你事半功倍，轻松完成任务！

术语表

MXNorm

MXNorm是一种新型的张量归一化方法，通过重用MXFP8量化过程中计算的块缩放来估计RMS，实现高效归一化。

在本文中，MXNorm用于替代传统的RMSNorm，以减少计算开销。

RMSNorm

RMSNorm是一种归一化方法，通过计算张量的均方根（RMS）来实现归一化。

在Llama 3模型的预训练中，RMSNorm被MXNorm替代。

MXFP8

MXFP8是一种低精度的量化格式，用于加速矩阵乘法。

在本文中，MXFP8用于量化张量，以提高计算效率。

量化

量化是将高精度数据转换为低精度格式的过程，以减少计算和存储开销。

在本文中，MXFP8量化用于加速矩阵乘法。

归一化

归一化是调整数据的尺度，使其在一定范围内，以提高模型训练的稳定性和效率。

在本文中，MXNorm用于高效归一化张量。

Llama 3模型

Llama 3是一种大规模语言模型，用于自然语言处理任务。

在本文中，Llama 3模型用于验证MXNorm的性能。

torch.compile

torch.compile是PyTorch中的一个编译工具，用于优化模型的计算效率。

在本文中，torch.compile用于实现MXNorm的内核加速。

内核加速

内核加速是通过优化计算过程，提高计算速度和效率的方法。

在本文中，MXNorm通过内核加速实现了比RMSNorm更快的计算速度。

大规模语言模型

大规模语言模型是用于处理自然语言任务的深度学习模型，通常具有大量的参数和复杂的结构。

在本文中，Llama 3是一个大规模语言模型。

均方根（RMS）

均方根是数据的一种统计度量，表示数据的平方平均值的平方根。

在本文中，RMS用于归一化张量。

开放问题这项研究留下的未解疑问

1 MXNorm在高学习率下的稳定性较差，容易出现损失峰值。未来的研究需要探索如何提高MXNorm在高学习率下的稳定性。
2 在较大规模模型上，MXNorm的训练损失略高于RMSNorm，表明在某些情况下可能存在精度损失。需要进一步研究如何在不损失精度的情况下提高MXNorm的性能。
3 MXNorm的性能依赖于特定的硬件和编译器优化，可能在不同平台上表现不一。未来的研究需要探索如何提高MXNorm的通用性和适应性。
4 目前的研究主要集中在大规模语言模型的预训练上，MXNorm在其他类型的神经网络模型中的应用尚未得到充分验证。
5 MXNorm在实际应用中的效果如何，特别是在不同的硬件平台和应用场景下，还需要进一步的实验证明。

应用场景

近期应用

大规模语言模型预训练

MXNorm能够在不显著损失精度的情况下，显著提高大规模语言模型的训练速度，适用于需要高效归一化的场景。

自然语言处理

在自然语言处理任务中，MXNorm可以用于加速模型的训练和推理，提高计算效率。

计算机视觉

在计算机视觉任务中，MXNorm能够通过减少计算开销，提高模型的实时性和响应速度。

远期愿景

通用AI加速器

MXNorm的成功应用可能推动通用AI加速器的发展，支持更广泛的深度学习模型和应用场景。

跨平台优化

未来MXNorm可能在不同硬件平台上实现优化，推动跨平台深度学习应用的发展。

原文摘要

Matrix multiplication performance has long been the major bottleneck to scaling deep learning workloads, which has stimulated the design of new accelerators that use increasingly low-precision number formats. However, improvements in matrix multiplication performance have far outstripped improvements in performance on reductions and elementwise computations, which are still being performed in higher precision. In this work, we propose MXNorm, a drop-in replacement for RMSNorm that estimates the RMS using only the block scales calculated as part of the MXFP8 cast and enables a 32x decrease in the size of reduction needed for normalization. We validate our approximation method on pre-training of Llama 3 models of 125M, 1B and 8B parameters, finding minimal loss of training accuracy compared to a baseline using RMSNorm with MXFP8 matmuls. We also show practical kernel speedups using only torch.compile of up to 2.4x for MXNorm over RMSNorm, corresponding to a 1.3% speedup in Llama 3 8B transformer layers in MXFP8 and a 2.6% speedup in NVFP4.

cs.LG cs.AI cs.NE

参考文献 (20)

How not to lie with statistics: the correct way to summarize benchmark results

P. Fleming, J. J. Wallace

1986 494 引用 ⭐ 高影响力

The Llama 3 Herd of Models

Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey 等

2024 13359 引用 ⭐ 高影响力查看解读 →

TorchAO: PyTorch-Native Training-to-Serving Model Optimization

Andrew Or, Apurva Jain, Daniel Vega-Myhre 等

2025 7 引用 ⭐ 高影响力查看解读 →

Recipes for Pre-training LLMs with MXFP8

Asit K. Mishra, Dusan Stosic, Simon Layton

2025 11 引用 ⭐ 高影响力查看解读 →

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

Sergey Ioffe, Christian Szegedy

2015 46189 引用查看解读 →

Efficient Streaming Language Models with Attention Sinks

Guangxuan Xiao, Yuandong Tian, Beidi Chen 等

2023 1489 引用查看解读 →

Small-scale proxies for large-scale Transformer training instabilities

Mitchell Wortsman, Peter J. Liu, Lechao Xiao 等

2023 152 引用查看解读 →

Gemma 2: Improving Open Language Models at a Practical Size

Gemma Team Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa 等

2024 1751 引用查看解读 →

Training Deep Learning Models with Norm-Constrained LMOs

T. Pethick, Wanyun Xie, Kimon Antonakopoulos 等

2025 84 引用查看解读 →

OLMES: A Standard for Language Model Evaluations

Yuling Gu, Oyvind Tafjord, Bailey Kuehl 等

2024 63 引用查看解读 →

GLU Variants Improve Transformer

Noam Shazeer

2020 1658 引用查看解读 →

Et al

P. Cochat, L. Vaucoret, J. Sarles

2008 74049 引用

Massive Activations in Large Language Models

Mingjie Sun, Xinlei Chen, J. Z. Kolter 等

2024 177 引用查看解读 →

Microscaling Data Formats for Deep Learning

B. Rouhani, Ritchie Zhao, A. More 等

2023 144 引用查看解读 →

PaLM: Scaling Language Modeling with Pathways

A. Chowdhery, Sharan Narang, Jacob Devlin 等

2022 7747 引用查看解读 →

Layer Normalization

Jimmy Ba, J. Kiros, Geoffrey E. Hinton

2016 12132 引用查看解读 →

Query-Key Normalization for Transformers

Alex Henry, Prudhvi Raj Dachapally, S. Pawar 等

2020 195 引用查看解读 →

RoFormer: Enhanced Transformer with Rotary Position Embedding

Jianlin Su, Yu Lu, Shengfeng Pan 等

2021 4514 引用查看解读 →

FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision

Jay Shah, Ganesh Bikshandi, Ying Zhang 等

2024 412 引用查看解读 →

LLaMA: Open and Efficient Foundation Language Models

Hugo Touvron, Thibaut Lavril, Gautier Izacard 等

2023 18909 引用查看解读 →

MXNorm: Reusing MXFP block scales for efficient tensor normalisation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

MXNorm

RMSNorm

MXFP8

量化

归一化

Llama 3模型

torch.compile

内核加速

大规模语言模型

均方根（RMS）

开放问题 这项研究留下的未解疑问

应用场景

近期应用

大规模语言模型预训练

自然语言处理

计算机视觉

远期愿景

通用AI加速器

跨平台优化

原文摘要

参考文献 (20)

相关论文

PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization

Representation Learning for Spatiotemporal Physical Systems

Learnability and Privacy Vulnerability are Entangled in a Few Critical Weights

ZO-SAM: Zero-Order Sharpness-Aware Minimization for Efficient Sparse Training

BoSS: A Best-of-Strategies Selector as an Oracle for Deep Active Learning

Breaking the Tuning Barrier: Zero-Hyperparameters Yield Multi-Corner Analysis Via Learned Priors

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问