The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers

TL;DR

MLP层在Transformer中执行二进制路由，GPT-2中验证其有效性，减少MLP层提升困惑度43.3%。

cs.LG 🔴 高级 2026-03-12 11 次浏览

Peter Balogh

MLP Transformer 二进制路由 GPT-2 神经网络

核心发现

方法论

本文采用GPT-2小模型（124M参数）进行实验，分析其MLP层在处理连续信号时的二进制路由特性。通过对不同层的神经元激活模式进行分析，发现早期层使用单一网关神经元进行路由，中间层表现出分散处理，而后期层则形成完整的共识/例外架构。通过因果验证，证明了这种路由结构的功能性。

关键结果

在GPT-2小模型中，特定神经元实现了共识架构：七个“默认开启”神经元和一个例外处理器（第11层的N2123），它们在93-98%的情况下是互斥的，形成了一个二进制路由开关。
因果验证显示，在共识崩溃时移除MLP层会导致困惑度增加43.3%，而在完全共识时移除则仅增加10.1%。
比较二进制与连续特征的路由决策，发现二值化几乎不丢失信息（79.2% vs. 78.8%准确率），而连续激活携带额外的幅度信息（R^2 = 0.36 vs. 0.22）。

研究意义

该研究揭示了Transformer模型中MLP层的二进制路由特性，挑战了传统的平滑多项式近似方法。这种二进制路由结构解释了为什么平滑多项式近似在高度非线性层中失败。研究结果表明，深度网络的分段仿射特征可以通过路由特征来补充，沿自然数据流形，分段边界实现了关于哪些标记需要非线性处理的二进制决策。

技术贡献

本文的技术贡献在于揭示了MLP层的二进制路由特性，并通过实验证明了其功能性。这种结构解释了为什么在高度非线性层中，平滑多项式近似无法有效工作。研究还表明，二值化在路由决策中几乎不丢失信息，而连续激活则携带额外的幅度信息。

新颖性

本文首次揭示了Transformer模型中MLP层的二进制路由特性，并通过实验证明了其功能性。这一发现挑战了传统的平滑多项式近似方法，提出了一种新的理解深度网络的框架。

局限性

该研究主要基于GPT-2小模型，结果可能不适用于其他更复杂的模型。
实验仅在WikiText-103数据集上进行，可能无法推广到其他类型的数据。
二进制路由的具体实现细节仍需进一步研究。

未来方向

未来的研究可以扩展到其他更复杂的Transformer模型，验证二进制路由特性是否普遍存在。此外，可以探索如何利用这种结构来优化模型的计算效率和性能。

AI 总览摘要

在自然语言处理领域，Transformer模型以其强大的性能和灵活性而闻名。然而，Transformer中的MLP层通常被视为函数逼近器，负责将输入映射到输出。然而，Peter Balogh的研究揭示了一个新的视角：MLP层实际上执行的是二进制路由。

通过对GPT-2小模型的分析，研究发现特定神经元形成了一个共识架构，能够有效地决定哪些标记需要非线性处理。这种架构由七个“默认开启”神经元和一个例外处理器组成，它们在93-98%的情况下是互斥的。

实验结果表明，移除MLP层在共识崩溃时会导致困惑度增加43.3%，而在完全共识时仅增加10.1%。这表明二进制路由在模型的计算中起到了关键作用。

此外，研究还比较了二进制与连续特征的路由决策，发现二值化几乎不丢失信息，而连续激活则携带额外的幅度信息。这一发现挑战了传统的平滑多项式近似方法。

这一研究不仅揭示了Transformer模型中MLP层的二进制路由特性，还为理解深度网络提供了新的框架。未来的研究可以探索如何利用这种结构来优化模型的计算效率和性能。

尽管该研究主要基于GPT-2小模型，结果可能不适用于其他更复杂的模型，但它为进一步研究提供了重要的启示。

深度分析

研究背景

近年来，Transformer模型在自然语言处理领域取得了显著进展。其核心组件之一是多层感知器（MLP）层，通常被视为函数逼近器，负责将输入映射到输出。然而，传统观点认为这些层的作用仅限于平滑函数逼近，而忽视了其可能的其他功能。Peter Balogh的研究挑战了这一传统观点，提出MLP层实际上执行的是二进制路由。这一发现为理解深度网络提供了新的视角，并可能对模型的优化和性能提升产生深远影响。

核心问题

Transformer模型中的MLP层通常被视为函数逼近器，负责将输入映射到输出。然而，这种视角忽视了MLP层可能的其他功能，尤其是在处理连续信号时的二进制路由特性。理解这一特性对于优化模型的计算效率和性能具有重要意义。然而，现有研究缺乏对这一特性的深入分析和验证。

核心创新

本文的核心创新在于揭示了Transformer模型中MLP层的二进制路由特性。研究通过对GPT-2小模型的分析，发现特定神经元形成了一个共识架构，能够有效地决定哪些标记需要非线性处理。这一发现挑战了传统的平滑多项式近似方法，并为理解深度网络提供了新的框架。此外，研究还通过实验证明了这种结构的功能性，为模型的优化和性能提升提供了新的思路。

方法详解

�� 使用GPT-2小模型（124M参数）进行实验，分析其MLP层在处理连续信号时的二进制路由特性。
�� 对不同层的神经元激活模式进行分析，发现早期层使用单一网关神经元进行路由，中间层表现出分散处理，而后期层则形成完整的共识/例外架构。
�� 通过因果验证，证明了这种路由结构的功能性。
�� 比较二进制与连续特征的路由决策，发现二值化几乎不丢失信息，而连续激活携带额外的幅度信息。

实验设计

实验在WikiText-103数据集上进行，使用GPT-2小模型（124M参数，12层，每层3072个MLP隐藏神经元）。研究通过捕获每个标记位置的输入和输出对，分析MLP层的输入-输出关系。实验设计包括多项式探测、分支检测和二进制特征提取等方法。通过这些实验，研究验证了MLP层的二进制路由特性，并分析了其在不同层的表现。

结果分析

实验结果表明，特定神经元实现了共识架构：七个“默认开启”神经元和一个例外处理器（第11层的N2123），它们在93-98%的情况下是互斥的，形成了一个二进制路由开关。因果验证显示，在共识崩溃时移除MLP层会导致困惑度增加43.3%，而在完全共识时移除则仅增加10.1%。此外，比较二进制与连续特征的路由决策，发现二值化几乎不丢失信息（79.2% vs. 78.8%准确率），而连续激活携带额外的幅度信息（R^2 = 0.36 vs. 0.22）。

应用场景

该研究的应用场景包括优化Transformer模型的计算效率和性能。通过理解MLP层的二进制路由特性，可以在模型设计中引入更高效的计算路径，从而提高模型的推理速度和准确性。此外，这一发现还可以应用于其他深度学习模型，帮助研究人员更好地理解和利用神经网络的内部结构。

局限与展望

尽管该研究揭示了MLP层的二进制路由特性，但其结果主要基于GPT-2小模型，可能不适用于其他更复杂的模型。此外，实验仅在WikiText-103数据集上进行，可能无法推广到其他类型的数据。未来的研究需要进一步验证这一特性在其他模型和数据集上的适用性。

通俗解读非专业人士也能看懂

想象一下你正在管理一个大型图书馆。每本书都有一个标签，告诉你这本书需要放在哪个书架上。现在，假设你有一个智能机器人助手，它能快速决定每本书应该放在哪个书架上。这个助手有两种模式：一种是快速模式，直接根据书的标签决定书架；另一种是慢速模式，需要仔细分析书的内容才能决定书架。

在这个类比中，书就是输入的数据，书架就是输出的类别，而机器人助手就是MLP层。快速模式就像是二进制路由，直接根据简单的规则决定输出；而慢速模式则需要更复杂的计算。

研究发现，MLP层中的某些神经元就像是这个助手的快速模式，它们能够快速决定哪些数据需要更复杂的处理。这种二进制路由结构使得模型能够更高效地处理数据。

通过理解这种结构，我们可以优化模型的计算效率，让机器人助手在大多数情况下都能快速做出决定，从而提高整个系统的性能。

简单解释像给14岁少年讲一样

嘿，小伙伴！你知道吗，计算机就像一个超级聪明的机器人，它能帮我们做很多事情，比如翻译语言、识别图片等等。为了做到这些，它需要一个叫做“Transformer”的工具箱。

在这个工具箱里，有一个叫做MLP的小工具。以前，我们都以为这个小工具只是用来做一些简单的数学计算，但最近有个科学家发现，它其实还有一个隐藏技能！

这个隐藏技能就像是一个开关，能决定什么时候需要做复杂的计算，什么时候可以简单处理。就像你在玩游戏时，有时候需要认真思考，有时候可以随便玩。

这个发现让我们对计算机的工作方式有了新的认识，也许以后我们可以用这种方法让计算机变得更聪明、更快哦！

术语表

MLP (多层感知器)

一种神经网络结构，通常用于将输入映射到输出。它由多个隐藏层组成，每层包含多个神经元。

在Transformer模型中，MLP层用于处理输入数据并生成输出。

Transformer

一种用于自然语言处理的神经网络架构，以其强大的性能和灵活性而闻名。

Transformer模型在处理序列数据时表现出色，广泛应用于机器翻译、文本生成等任务。

GPT-2

一种基于Transformer架构的语言模型，由OpenAI开发，用于生成自然语言文本。

本文使用GPT-2小模型进行实验，分析其MLP层的二进制路由特性。

二进制路由

一种决策机制，通过简单的二进制条件决定数据的处理路径。

研究发现，MLP层中的某些神经元形成了二进制路由结构，决定哪些数据需要非线性处理。

共识架构

一种神经网络结构，由多个“默认开启”神经元和一个例外处理器组成，用于实现二进制路由。

在GPT-2小模型中，特定神经元实现了共识架构，形成了一个二进制路由开关。

困惑度

一种衡量语言模型性能的指标，数值越低表示模型性能越好。

因果验证显示，在共识崩溃时移除MLP层会导致困惑度增加43.3%。

平滑多项式近似

一种数学方法，用于逼近复杂函数。

研究发现，平滑多项式近似在高度非线性层中失败，而二进制路由结构可以解释这一现象。

激活模式

神经网络中神经元的激活状态，用于决定数据的处理路径。

通过分析不同层的神经元激活模式，研究揭示了MLP层的二进制路由特性。

非线性处理

一种复杂的计算过程，用于处理需要更高计算能力的数据。

共识架构能够有效地决定哪些标记需要非线性处理。

数据流形

数据在高维空间中的分布形式，用于描述数据的内在结构。

研究提出，深度网络的分段仿射特征可以通过路由特征来补充，沿自然数据流形实现二进制决策。

开放问题这项研究留下的未解疑问

1 虽然本文揭示了MLP层的二进制路由特性，但其在更复杂的Transformer模型中的适用性仍需验证。现有研究主要基于GPT-2小模型，未来需要在更大规模的模型上进行测试。
2 实验仅在WikiText-103数据集上进行，可能无法推广到其他类型的数据。未来的研究需要验证这一特性在其他数据集上的表现。
3 二进制路由的具体实现细节仍需进一步研究。虽然本文揭示了其存在，但如何在实际应用中利用这一特性仍需探索。
4 研究中使用的共识架构是否适用于其他类型的神经网络仍不明确。未来可以探索这一架构在其他模型中的应用。
5 虽然研究揭示了平滑多项式近似在高度非线性层中失败的原因，但如何改进这一方法仍需进一步研究。

应用场景

近期应用

Transformer模型优化

通过理解MLP层的二进制路由特性，可以在模型设计中引入更高效的计算路径，从而提高模型的推理速度和准确性。

自然语言处理应用

这一发现可以应用于机器翻译、文本生成等任务，帮助研究人员更好地理解和利用神经网络的内部结构。

深度学习模型改进

通过揭示MLP层的二进制路由特性，可以为其他深度学习模型的优化提供新的思路和方法。

远期愿景

智能系统设计

理解二进制路由特性可以帮助设计更智能的系统，使其在处理复杂任务时更加高效。

计算机科学教育

这一研究为计算机科学教育提供了新的内容，可以帮助学生更好地理解神经网络的工作原理。

原文摘要

We show that MLP layers in transformer language models perform binary routing of continuous signals: the decision of whether a token needs nonlinear processing is well-captured by binary neuron activations, even though the signals being routed are continuous. In GPT-2 Small (124M parameters), we find that specific neurons implement a consensus architecture -- seven "default-ON" neurons and one exception handler (N2123 in Layer 11) that are 93-98% mutually exclusive -- creating a binary routing switch. A cross-layer analysis reveals a developmental arc: early layers (L1-3) use single gateway neurons to route exceptions without consensus quorums; middle layers (L4-6) show diffuse processing with neither gateway nor consensus; and late layers (L7-11) crystallize full consensus/exception architectures with increasing quorum size (1 to 3 to 7 consensus neurons). Causal validation confirms the routing is functional: removing the MLP at consensus breakdown costs 43.3% perplexity, while at full consensus removing it costs only 10.1% -- exceeding a 4x difference. Comparing binary vs. continuous features for the routing decision confirms that binarization loses essentially no information (79.2% vs. 78.8% accuracy), while continuous activations carry additional magnitude information (R^2 = 0.36 vs. 0.22). This binary routing structure explains why smooth polynomial approximation fails: cross-validated polynomial fits (degrees 2-7) never exceed R^2 = 0.06 for highly nonlinear layers. We propose that the well-established piecewise-affine characterization of deep networks can be complemented by a routing characterization: along the natural data manifold, the piecewise boundaries implement binary decisions about which tokens need nonlinear processing, routing continuous signals through qualitatively different computational paths.

cs.LG

参考文献 (18)

The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction

Pratyusha Sharma, Jordan T. Ash, Dipendra Misra

2023 125 引用查看解读 →

Progress measures for grokking via mechanistic interpretability

Neel Nanda, Lawrence Chan, Tom Lieberum 等

2023 704 引用查看解读 →

Pointer Sentinel Mixture Models

Stephen Merity, Caiming Xiong, James Bradbury 等

2016 3752 引用查看解读 →

Sparse Autoencoders Find Highly Interpretable Features in Language Models

Hoagy Cunningham, Aidan Ewart, L. Smith 等

2023 927 引用查看解读 →

A symbolic analysis of relay and switching circuits

C. Shannon

1938 1051 引用

GLU Variants Improve Transformer

Noam Shazeer

2020 1652 引用查看解读 →

Toy Models of Superposition

Nelson Elhage, Tristan Hume, Catherine Olsson 等

2022 656 引用查看解读 →

Language Models are Unsupervised Multitask Learners

Alec Radford, Jeff Wu, R. Child 等

2019 27602 引用

A Mathematical Theory of Communication

J. Shin, Sang Joon Kim

2006 72798 引用

Adaptive Computation Time for Recurrent Neural Networks

Alex Graves

2016 656 引用查看解读 →

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

Tim Dettmers, M. Lewis, Younes Belkada 等

2022 906 引用查看解读 →

Transformer Feed-Forward Layers Are Key-Value Memories

Mor Geva, R. Schuster, Jonathan Berant 等

2020 1235 引用查看解读 →

Depth-Adaptive Transformer

Maha Elbayad, Jiatao Gu, Edouard Grave 等

2019 249 引用查看解读 →

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

Xin Men, Mingyu Xu, Qingyu Zhang 等

2024 282 引用查看解读 →

A Spline Theory of Deep Learning

Randall Balestriero, Richard Baraniuk

2018 99 引用

Knowledge Neurons in Pretrained Transformers

Damai Dai, Li Dong, Y. Hao 等

2021 610 引用查看解读 →

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

Jonathan Frankle, Michael Carbin

2018 4055 引用查看解读 →

Scaling and evaluating sparse autoencoders

Leo Gao, Tom Dupr'e la Tour, Henk Tillman 等

2024 354 引用查看解读 →

The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

MLP (多层感知器)

Transformer

GPT-2

二进制路由

共识架构

困惑度

平滑多项式近似

激活模式

非线性处理

数据流形

开放问题 这项研究留下的未解疑问

应用场景

近期应用

Transformer模型优化

自然语言处理应用

深度学习模型改进

远期愿景

智能系统设计

计算机科学教育

原文摘要

参考文献 (18)

相关论文

PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization

Representation Learning for Spatiotemporal Physical Systems

Learnability and Privacy Vulnerability are Entangled in a Few Critical Weights

MXNorm: Reusing MXFP block scales for efficient tensor normalisation

ZO-SAM: Zero-Order Sharpness-Aware Minimization for Efficient Sparse Training

BoSS: A Best-of-Strategies Selector as an Oracle for Deep Active Learning

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问