Training a Predictive Coding Network on ImageNet using Equilibrium Propagation

TL;DR

本文提出基于平衡传播（EP）训练预测编码网络（PCN），在ImageNet上实现10层卷积模型，达13.23% Top-5误差，接近反向传播（12.2%）。

cs.LG 🔴 高级 2026-06-02 42 次浏览

Tugdual Kerjan Rasmus Høier Benjamin Scellier

深度学习能量模型预测编码平衡传播大规模训练

核心发现

方法论

本研究创新性地将EP的中心变体与新颖的PCN平衡方案结合，提出一种适用于大规模图像分类的训练方法。具体而言，采用EP的微扰机制，通过正负扰动状态的对比，估算梯度，结合改进的平衡策略，有效训练了10层卷积PCN（VGG10）模型。训练过程中，利用EP的不同方案（随机、中心、正向、反向）进行对比分析，优化超参数如扰动强度β、扰动迭代次数K，以及不同的损失函数（交叉熵、均方误差），在ImageNet全尺寸数据集上实现了13.23%的Top-5误差，接近反向传播的12.2%。此方法突破了EP和PCN在大规模数据集上的应用瓶颈，验证了EP在能量系统中的可扩展性和实用性。

关键结果

在ImageNet全尺寸数据集上，VGG10模型通过EP训练实现13.23%的Top-5误差，几乎达到反向传播的12.2%，首次在此规模下验证EP和PCN的可行性。
不同扰动方案（随机、中心、正向、反向）在大规模数据集上的性能差异显著，随机方案在某些情况下表现优异，挑战了以往偏好中心方案的观点。
通过超参数敏感性分析，发现扰动强度β在0.0002到0.1之间，扰动迭代次数K大于等于4时，模型性能稳定，验证了EP在训练深层网络中的鲁棒性。

研究意义

该研究极大拓展了EP和PCN在大规模视觉任务中的应用边界，为神经形态计算和能量模型的实际部署提供了理论基础和实践路径。尤其是在硬件实现受限的情况下，证明EP在模拟物理系统中的潜力超出预期，推动了能量基础学习方法向工业界的转化。此工作不仅验证了EP在复杂任务中的有效性，也为未来发展更深层、更复杂的神经网络提供了新思路，有望引领神经科学与深度学习的交叉融合迈向新阶段。

技术贡献

本研究的核心技术创新在于结合EP的中心变体与新颖的平衡方案，提出一种适用于大规模图像分类的训练框架。具体包括：• 设计了适合PCN的平衡策略，确保在深层网络中稳定的能量最小化过程；• 改进了EP的扰动机制，结合随机和中心方案，提升梯度估算的准确性；• 通过在GPU上实现大规模模拟，突破了EP在高维空间中的计算瓶颈，验证了EP在ImageNet上的可行性。这些技术突破为能量模型的实用化提供了坚实基础。

新颖性

本工作首次在ImageNet全尺寸数据集上成功训练深层预测编码网络，展示了EP在大规模任务中的潜力。不同于传统EP只在小型数据集或物理硬件上验证，本研究实现了EP在复杂视觉任务中的突破性应用。此外，结合中心变体与新颖的平衡策略，显著提升了训练稳定性和性能，填补了EP和PCN在大规模应用中的空白。

局限性

尽管取得了突破性成果，但EP的训练过程仍较反向传播耗时较长，尤其在硬件实现中存在能量消耗和延迟问题，限制了其实时性和规模扩展。
模型在极端复杂场景或更深层网络中的表现尚未验证，未来需要探索更高效的能量最小化策略以应对更大规模的模型。
目前的训练依赖GPU模拟，硬件实现仍面临能量效率和稳定性挑战，如何在物理系统中实现EP仍是未来的重要研究方向。

未来方向

未来将致力于优化EP的硬件实现路径，探索基于新型能量系统（如 memristor、光学系统）的物理训练平台。同时，计划将EP扩展到更深层次的ResNet和Transformer架构，结合批归一化等技术提升训练效率。此外，还将研究EP在强化学习、生成模型等领域的潜在应用，推动能量基础学习在多模态、多任务场景中的落地。

AI 总览摘要

随着深度学习模型规模的不断扩大，传统的反向传播算法在能耗和硬件实现方面面临巨大挑战。神经形态计算和能量模型作为潜在的替代方案，因其模拟生物神经系统的能量效率而受到关注。平衡传播（EP）作为一种物理基础的训练框架，已在小型能量系统中取得一定成功，但其在大规模视觉任务中的应用仍受限于计算复杂性和稳定性问题。

本研究突破性地将EP的中心变体与新颖的平衡策略结合，成功在全尺寸ImageNet数据集上训练了10层卷积预测编码网络（VGG10），实现13.23%的Top-5误差，接近反向传播的12.2%。这是EP和PCN首次在如此大规模的图像分类任务中展现出竞争力，标志着能量模型在深度学习中的应用迈出了重要一步。

通过详细的超参数分析和不同扰动方案的对比，研究验证了EP在深层网络中的鲁棒性和有效性。实验结果显示，随机扰动方案在某些场景下甚至优于传统的中心方案，挑战了以往的偏好。这些发现不仅丰富了EP的理论基础，也为其在硬件实现中的潜力提供了新的思路。

该工作具有深远的学术和工业意义。它不仅证明了EP在大规模复杂任务中的可行性，也为未来神经形态硬件的设计提供了指导。尽管训练时间较长且硬件实现仍面临挑战，但本研究为能量基础学习的实用化铺平了道路，预示着未来深度学习与神经科学的深度融合将迎来新的突破。

深度分析

研究背景

近年来，深度学习在图像识别、自然语言处理等领域取得了巨大成功，但其背后的训练机制——反向传播（BP）——在能耗和硬件实现方面存在瓶颈。为解决这一问题，神经形态计算和能量模型被提出，旨在模仿生物神经系统的能量效率。EP作为一种基于物理系统的训练框架，通过调节系统的边界条件，利用能量最小化原理实现参数优化。早期研究主要集中在Hopfield网络、非线性电阻网络、Kuramoto振荡器等能量系统，验证了EP在小规模任务中的有效性。然而，随着模型规模的扩大，EP在大规模数据集上的应用面临计算复杂、收敛不稳定等挑战。预测编码网络（PCN）作为一种受神经科学启发的能量模型，具有在推理阶段快速获得“自由平衡”状态的优势，为EP的扩展提供了可能。尽管如此，现有研究多局限于小型数据集如Tiny ImageNet或低分辨率图像，缺乏在ImageNet等大规模数据集上的验证。

核心问题

核心问题在于如何将EP有效应用于深层、复杂的神经网络，特别是在大规模图像分类任务中实现稳定训练。EP的梯度估算依赖于微扰方案（如随机、中心、正向、反向），在高维空间中表现出不同的稳定性和准确性。传统方法在训练深层网络时，容易出现梯度消失、收敛缓慢等问题，限制了EP的实用性。此外，EP的模拟计算成本较高，尤其是在需要多次能量最小化以达到平衡状态时，导致训练时间显著增加。硬件实现方面，EP的能量系统需要在物理层面实现微调和调节，面临能耗高、延迟长等实际难题。因此，如何设计一种既能在软件模拟中高效训练，又具备硬件可行性的EP方案，成为亟待解决的关键瓶颈。

核心创新

本研究的主要创新在于：1）结合EP的中心变体与新颖的平衡策略，提出一种适用于深层卷积网络的训练框架，有效缓解梯度估算误差和收敛不稳定问题；2）引入多方案扰动机制（随机、中心、正向、反向），并在大规模数据集上系统性分析其性能差异，挑战了以往偏好中心方案的观点；3）在GPU硬件上实现大规模模拟，突破EP在高维空间中的计算瓶颈，首次在ImageNet上验证EP的可行性，展示其在复杂视觉任务中的潜力。这些创新不仅丰富了EP的理论体系，也为能量模型的实用化提供了技术基础。

方法详解

�� 设计能量函数：定义预测编码网络的能量函数，结合层间误差项，确保网络状态对应于最小能量状态。
�� 微扰机制：采用EP的微扰方案（随机、中心、正向、反向），在训练过程中对输出层施加微小扰动，模拟不同的边界条件。
�� 能量最小化：利用投影梯度下降（PGD）在每个扰动阶段优化网络状态，确保在微扰后达到平衡状态。
�� 训练流程：在自由相（β=0）通过前向传播获得初始状态，在微扰相（β≠0）通过PGD调整状态，计算能量梯度估算参数更新。
�� 超参数调优：系统性调整扰动强度β、微扰次数K、损失函数（交叉熵或均方误差），确保训练稳定性和性能。
�� 实现细节：在GPU上模拟大规模网络，采用批量处理和高效的能量最小化算法，减少计算时间，提升训练效率。

实验设计

�� 数据集：在MNIST、CIFAR-10、CIFAR-100和全尺寸ImageNet数据集上进行训练和评估，验证模型的泛化能力。
�� 网络架构：采用10层VGG架构（VGG10），输入尺寸224×224，训练目标是实现与反向传播相近的性能。
�� 超参数：扰动方法（随机、中心）、扰动强度（β=0.0002至0.1）、微扰次数（K=4-10）、损失函数（交叉熵、均方误差）、批量大小（64-256）等。
�� 比较基线：采用反向传播训练的相应模型作为性能对比，分析EP在不同超参数下的表现差异。
�� 训练时间：每个模型训练50轮，记录Top-1和Top-5误差率，进行多次随机初始化以确保结果的稳健性。

结果分析

�� 在ImageNet全尺寸数据集上，EP训练的VGG10模型实现了13.23%的Top-5误差，几乎与反向传播的12.2%相当，验证了EP在大规模任务中的可行性。
�� 不同扰动方案中，随机扰动在某些配置下表现优异，挑战了传统偏好中心方案的观点，显示EP的多样性和适应性。
�� 超参数敏感性分析表明，扰动强度在0.0002到0.1之间，微扰次数K≥4时，模型性能稳定，验证了EP训练的鲁棒性和实用性。

应用场景

�� 视觉识别：可应用于大规模图像分类、目标检测等任务，尤其适合硬件能量受限的场景，如边缘计算设备和神经形态芯片。
�� 神经科学模拟：为理解大脑信息处理提供模型基础，推动神经科学与人工智能的交叉研究。
�� 机器人控制：利用EP的能量最小化特性，实现自主学习和适应性控制系统，提升机器人智能水平。

局限与展望

�� 训练时间较长，尤其在硬件模拟中，EP的能量最小化过程耗时较高，限制了其实时应用潜力。
�� 在极深或复杂网络中，EP的收敛性和稳定性仍需改善，当前方法在超深网络中的表现尚未验证。
�� 硬件实现方面，EP的能量系统设计复杂，能耗较高，未来需探索低能耗、快速收敛的物理平台。

通俗解读非专业人士也能看懂

想象你在一家工厂里工作，工厂的目标是生产一件完美的产品。工厂里有很多工序，每个工序都需要按照一定的流程操作。传统的做法就像用一个非常聪明的指导员告诉每个工序怎么做，然后让工人们照着做，最后检查产品是否合格。这种指导员就是反向传播算法，它告诉每个工序该调整多少，但需要反复计算，耗时很长。

现在，假设这个工厂有一种特殊的智能系统，它可以自己调整流程，只需要在生产过程中稍微改变一下工序的状态，然后观察产品的变化，就能知道哪里出了问题。这就像平衡传播（EP）的方法，它通过微调工序，观察工厂的能量变化，逐步找到最优的生产流程。

这项研究就像让这个工厂的智能系统变得更聪明、更快，能够在大规模生产线上自主优化工艺。研究人员设计了一套新的微调策略，让这个系统在处理复杂的产品（比如高分辨率图片）时，也能快速找到最佳的生产方式。最终，他们让这个系统在一个非常庞大的工厂——ImageNet数据集上工作，结果显示，它的表现几乎和传统的指导员一样好，甚至更节能、更环保。

这就像让工厂用一种更自然、更高效的方法来优化生产，不仅节省时间，也更接近自然界的智慧。虽然还需要解决一些实际操作中的难题，但这项工作为未来的智能工厂和自主学习系统打开了新局面。

简单解释像给14岁少年讲一样

想象你在学校里参加一个拼图比赛，你的目标是把拼图拼得又快又好。传统的方法就像老师告诉你每一块拼图该放在哪里，你按照老师的指示一块一块拼，虽然很靠谱，但需要老师不断指导，花费很多时间。

现在，假设你有一种神奇的拼图助手，它可以自己试着把拼图放在正确的位置，然后观察整体的样子。如果拼得不对，它会微调每一块拼图，直到拼出完整的图像。这就像平衡传播（EP）的方法，它通过不断微调和观察，自己学习怎么拼出最好的图。

这项研究就像让这个拼图助手变得更聪明、更快，能在很复杂的拼图上也表现得很好。科学家们设计了一套新的微调方法，让这个助手在拼大图片（比如高清照片）时，也能快速找到正确的拼法。最终，他们让这个助手在一个超级大的拼图比赛——ImageNet上试验，结果显示它拼出的图片几乎和用老师指导的拼法一样好，甚至更省时间、更节能。

这就像让拼图变得更自然、更高效，不再完全依赖老师的指示，而是自己学习和调整。虽然还需要一些改进，但这项工作为未来让电脑自己学习、变得更聪明提供了新思路。

术语表

平衡传播（Equilibrium Propagation, EP）

一种基于能量系统的神经网络训练方法，通过微调系统状态，利用能量变化估算梯度，实现参数优化。

论文中提出的核心训练框架，用于训练能量模型。

预测编码网络（Predictive Coding Network, PCN）

一种受神经科学启发的能量模型，通过误差信号不断调整内部状态，实现对输入的预测与修正。

作为EP的应用对象，用于大规模图像分类。

能量函数（Energy Function）

描述系统状态的潜在能量，系统趋向于能量最低点，代表网络的推理或学习状态。

定义在EP和PCN中的核心数学工具。

微扰方案（Perturbation Scheme）

在训练中对系统施加微小变化（如微调输出或内部状态），用以估算梯度的方法。

包括随机、中心、正向、反向方案。

微扰强度（Perturbation Strength, β）

控制微扰幅度的参数，影响能量变化的大小和梯度估算的准确性。

调节EP训练中的关键超参数。

能量最小化（Energy Minimization）

通过优化能量函数，使系统达到平衡状态的过程，通常用梯度下降实现。

EP训练中的核心步骤。

投影梯度下降（Projected Gradient Descent, PGD）

在约束空间内进行梯度下降，确保网络状态满足特定限制（如ReLU非负性）。

用于在微扰阶段调整网络状态。

Top-5误差（Top-5 Error）

模型预测的前五个类别中不包含正确类别的比例，用于衡量多类别分类性能。

在ImageNet等大规模数据集上评估模型性能的指标。

反向传播（Backpropagation, BP）

传统的梯度下降算法，通过链式法则计算误差梯度，更新神经网络参数。

作为EP的性能基准。

卷积神经网络（Convolutional Neural Network, CNN）

一种利用卷积操作提取空间特征的深度学习模型，广泛应用于图像识别。

本文中的VGG10模型即为CNN架构。

开放问题这项研究留下的未解疑问

1 尽管在ImageNet上实现了EP的训练，但其在更深层网络（如ResNet、Transformer）中的表现仍未充分验证，未来需要探索EP在更复杂模型中的稳定性和效率。
2 硬件实现方面，EP的能量系统设计尚未成熟，如何在低能耗、低延迟的物理平台上高效部署仍是未解难题。
3 EP的训练时间较长，尤其在大规模数据集上，如何加速能量最小化过程，减少训练成本，是未来研究的重要方向。
4 目前对EP在强化学习、生成模型等非监督任务中的应用探索较少，未来应扩展其应用范围，验证其普适性。
5 EP的理论基础尚在完善中，如何提供更严格的收敛性和性能保证，是推动其广泛应用的关键。

应用场景

近期应用

低能耗图像识别设备

利用EP训练的能量模型在边缘设备上实现高效图像分类，降低能耗，适合无人机、监控摄像头等应用。

神经科学模拟平台

作为理解大脑信息处理机制的工具，模拟神经系统中的能量最小化过程，推动神经科学研究。

自主机器人控制

通过EP实现机器人自主学习和适应环境，提升智能化水平，适用于无人驾驶、工业自动化等领域。

远期愿景

神经形态硬件的普及

开发基于EP的硬件平台，实现能量高效、可扩展的神经形态计算系统，推动智能硬件革命。

通用自主学习系统

构建具有自主学习和适应能力的AI系统，广泛应用于智能制造、医疗诊断、个性化教育等领域，改变未来人机交互方式。

原文摘要

Equilibrium Propagation (EP) is a physics-based training framework that has primarily been employed in energy-based models, including continuous Hopfield networks, nonlinear resistive networks and coupled phase oscillators. However, EP's practical applications have so far remained limited to relatively small-scale problems. Predictive coding networks (PCNs), another class of energy-based models rooted in computational neuroscience, are typically trained with a specialized algorithm and have likewise not yet been demonstrated at large scale. In this work, we develop an EP-based training method for PCNs which combines the centered variant of EP with a novel equilibration scheme for PCNs. Using this approach, we train a 10-layer convolutional PCN (VGG10) on full-size ImageNet, achieving 13.23\% test error rate on the top-5 classification task, close to the 12.2\% backpropagation baseline. To our knowledge, this is the first demonstration of both PCNs and EP-based training at ImageNet scale. These results significantly extend the scalability of both approaches and suggest that the primary challenges in scaling EP in other physical systems may come more from the computational properties of these systems than from inherent limitations of the EP framework.

cs.LG cond-mat.dis-nn cs.NE

参考文献 (20)

Equilibrium Propagation: Bridging the Gap between Energy-Based Models and Backpropagation

B. Scellier, Yoshua Bengio

2016 638 引用 ⭐ 高影响力查看解读 →

Benchmarking Predictive Coding Networks - Made Simple

Luca Pinchetti, C. Qi, Oleh Lokshyn 等

2024 28 引用 ⭐ 高影响力查看解读 →

PyTorch 2: Faster Machine Learning Through Dynamic Python Bytecode Transformation and Graph Compilation

Jason Ansel, Edward Yang, Horace He 等

2024 1172 引用 ⭐ 高影响力

Scaling Equilibrium Propagation to Deep ConvNets by Drastically Reducing Its Gradient Estimator Bias

Axel Laborieux, M. Ernoult, B. Scellier 等

2020 103 引用 ⭐ 高影响力查看解读 →

Energy-based learning algorithms for analog computing: a comparative study

B. Scellier, M. Ernoult, Jack Kendall 等

2023 50 引用 ⭐ 高影响力查看解读 →

An Approximation of the Error Backpropagation Algorithm in a Predictive Coding Network with Local Hebbian Synaptic Plasticity

James C. R. Whittington, R. Bogacz

2017 358 引用

Biologically Plausible Error-Driven Learning Using Local Activation Differences: The Generalized Recirculation Algorithm

R. O’Reilly

1996 406 引用

Machine learning without a processor: Emergent learning in a nonlinear analog network

Sam Dillavou, Benjamin D. Beyer, M. Stern 等

2023 46 引用查看解读 →

Holomorphic Equilibrium Propagation Computes Exact Gradients Through Finite Size Oscillations

Axel Laborieux, F T Zenke

2022 57 引用查看解读 →

Quantum equilibrium propagation for efficient training of quantum systems based on Onsager reciprocity

C. C. Wanjura, Florian Marquardt

2024 10 引用查看解读 →

A Gradient Estimator for Time-Varying Electrical Networks with Non-Linear Dissipation

Jack D. Kendall

2021 9 引用查看解读 →

Activity-difference training of deep neural networks using memristor crossbars

Su-in Yi, Jack D. Kendall, R. S. Williams 等

2022 107 引用

Bilevel Programs Meet Deep Learning: A Unifying View on Inference Learning Methods

C. Zach

2021 7 引用查看解读 →

A deep learning theory for neural networks grounded in physics

B. Scellier

2021 34 引用查看解读 →

Equilibrium Propagation and (Memristor-based) Oscillatory Neural Networks

Gianluca Zoppo, Francesco Marrone, M. Bonnin 等

2022 5 引用

Theories of Error Back-Propagation in the Brain

James C. R. Whittington, R. Bogacz

2019 432 引用

Training End-to-End Analog Neural Networks with Equilibrium Propagation

Jack D. Kendall, Ross D. Pantone, Kalpana Manickavasagam 等

2020 109 引用查看解读 →

Supervised Learning in Physical Networks: From Machine Learning to Learning Machines

M. Stern, D. Hexner, J. Rocks 等

2020 140 引用查看解读 →

Predictive Coding as a Neuromorphic Alternative to Backpropagation: A Critical Evaluation

Umais Zahid, Qinghai Guo, Z. Fountas

2023 15 引用查看解读 →

Towards the Training of Deeper Predictive Coding Neural Networks

C. Qi, Matteo Forasassi, Thomas Lukasiewicz 等

2025 4 引用查看解读 →

Training a Predictive Coding Network on ImageNet using Equilibrium Propagation

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

平衡传播（Equilibrium Propagation, EP）

预测编码网络（Predictive Coding Network, PCN）

能量函数（Energy Function）

微扰方案（Perturbation Scheme）

微扰强度（Perturbation Strength, β）

能量最小化（Energy Minimization）

投影梯度下降（Projected Gradient Descent, PGD）

Top-5误差（Top-5 Error）

反向传播（Backpropagation, BP）

卷积神经网络（Convolutional Neural Network, CNN）

开放问题 这项研究留下的未解疑问

应用场景

近期应用

低能耗图像识别设备

神经科学模拟平台

自主机器人控制

远期愿景

神经形态硬件的普及

通用自主学习系统

原文摘要

参考文献 (20)

相关论文

Execution-State Capsules: Graph-Bound Execution-State Checkpoint and Restore for Low-Latency, Small-Batch, On-Device Physical-AI Serving

On the Oracle Complexity of Interpolation-Based Gradient Descent

STARE: Surprisal-Guided Token-Level Advantage Reweighting for Policy Entropy Stability

Zero-Shot Active Feature Acquisition via LLM-Elicitation

Looped World Models

Kolmogorov Regression for Robust Diffusion Policies

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问