Combining Convolution and Delay Learning in Recurrent Spiking Neural Networks

TL;DR

结合卷积和延迟学习的递归脉冲神经网络在音频分类任务中实现了52倍推理加速和99%参数节省。

cs.NE 🔴 高级 2026-04-17 35 次浏览
Lúcio Folly Sanches Zebendo Eleonora Cicciarella Michele Rossi
脉冲神经网络 卷积递归架构 延迟学习 语音识别 神经形态计算

核心发现

方法论

本文提出了一种结合卷积和延迟学习的递归脉冲神经网络(CRSNN)架构。通过使用轻量级一维卷积代替密集的递归连接,并结合DelRec延迟学习机制,CRSNN在处理时间序列数据时能够有效地减少参数开销,同时保持高效的时间建模能力。该方法特别适用于具有局部时间相关性的信号,如音频频谱图。

关键结果

  • 在Spiking Heidelberg Digits (SHD)数据集上,CRSNN实现了91.51%的准确率,与DelRec的91.72%接近,但递归参数减少了99.6%。此外,推理时间缩短了52倍,显示出在在线流媒体应用中的潜力。
  • 在Spiking Speech Commands (SSC)数据集上,CRSNN在使用原始超参数的情况下达到了78.59%的准确率,尽管比DelRec低4个百分点,但在参数效率上有显著提升。
  • 延迟学习的消融研究表明,去除可学习延迟会导致性能显著下降,尤其是在SHD数据集上,准确率下降超过2个百分点,强调了自适应时间动态的重要性。

研究意义

该研究在学术界和工业界具有重要意义,尤其是在资源受限的边缘计算设备上。通过减少递归参数和加速推理时间,CRSNN为实时应用提供了可能性。此外,该方法解决了传统递归网络中梯度消失或爆炸的问题,提高了训练稳定性和模型的时间建模能力。

技术贡献

本文的技术贡献在于提出了一种新的卷积递归脉冲神经网络架构,结合了可学习的轴突延迟。这种方法不仅在参数效率上优于现有的最先进方法,还提供了新的工程可能性,特别是在神经形态硬件上的部署。通过利用局部时间相关性,CRSNN在不损失性能的情况下大幅减少了参数数量。

新颖性

本文首次将卷积递归连接与可学习延迟结合在一起,形成了一种新的脉冲神经网络架构。与现有方法相比,CRSNN通过利用局部时间相关性来减少参数开销,同时保持高效的时间建模能力,这在处理音频频谱图等信号时尤为重要。

局限性

  • 在Spiking Speech Commands数据集上的准确率低于DelRec,表明在某些任务上可能需要进一步优化。
  • 尽管参数减少显著,但在某些情况下可能会导致过拟合,特别是在层数增加时。
  • 目前的实现主要针对音频数据,其他类型的时间序列数据可能需要调整。

未来方向

未来的研究方向包括探索CRSNN在其他类型时间序列数据上的性能,如手势识别和生物医学信号处理。此外,可以进一步优化延迟学习机制,以提高在不同任务上的泛化能力。研究如何在更大规模的数据集上保持性能也是一个重要方向。

AI 总览摘要

脉冲神经网络(SNNs)作为一种生物启发的计算框架,近年来在资源受限的边缘系统中获得了越来越多的关注。传统的人工神经网络在处理复杂的时间序列数据时面临着梯度消失和计算开销大的问题,而SNNs通过使用稀疏、异步的二进制事件进行信息编码,提供了一种高效的解决方案。

本文提出了一种结合卷积和延迟学习的递归脉冲神经网络(CRSNN)架构,旨在解决现有递归SNNs在处理长时间依赖时的局限性。通过引入卷积递归连接,CRSNN能够利用时间信号中的局部相关性,显著减少参数开销,同时保持高效的时间建模能力。

在实验中,CRSNN在Spiking Heidelberg Digits (SHD)数据集上实现了91.51%的准确率,与DelRec的91.72%相近,但递归参数减少了99.6%。此外,推理时间缩短了52倍,显示出在在线流媒体应用中的潜力。在Spiking Speech Commands (SSC)数据集上,CRSNN在使用原始超参数的情况下达到了78.59%的准确率,尽管比DelRec低4个百分点,但在参数效率上有显著提升。

该研究在学术界和工业界具有重要意义,尤其是在资源受限的边缘计算设备上。通过减少递归参数和加速推理时间,CRSNN为实时应用提供了可能性。此外,该方法解决了传统递归网络中梯度消失或爆炸的问题,提高了训练稳定性和模型的时间建模能力。

然而,CRSNN在某些任务上的表现仍有改进空间,特别是在Spiking Speech Commands数据集上。未来的研究方向包括探索CRSNN在其他类型时间序列数据上的性能,如手势识别和生物医学信号处理。此外,可以进一步优化延迟学习机制,以提高在不同任务上的泛化能力。研究如何在更大规模的数据集上保持性能也是一个重要方向。

深度分析

研究背景

脉冲神经网络(SNNs)近年来在处理时间序列数据方面显示出巨大的潜力。与传统的人工神经网络(ANNs)不同,SNNs通过使用稀疏、异步的二进制事件进行信息编码,提供了一种高效的计算框架,特别适用于神经形态硬件。递归脉冲神经网络(RSNNs)通过引入递归连接和神经元状态动态,能够在长时间范围内整合信息,展示出丰富的时间行为。然而,RSNNs在复杂时间任务上的训练仍然具有挑战性,尤其是在使用基于梯度的优化方法时,梯度可能会在长时间序列上消失或爆炸。近年来,研究人员通过增强脉冲神经元模型和引入可学习的延迟机制,取得了一定的进展。

核心问题

在处理复杂的时间序列数据时,传统的递归神经网络(RNNs)面临着梯度消失和计算开销大的问题。尽管SNNs提供了一种高效的解决方案,但在处理长时间依赖时仍然存在局限性。具体来说,现有的RSNNs在参数效率和时间建模能力之间存在权衡,尤其是在资源受限的边缘设备上。如何在减少参数开销的同时保持高效的时间建模能力,是一个亟待解决的问题。

核心创新

本文的核心创新在于提出了一种结合卷积和延迟学习的递归脉冲神经网络(CRSNN)架构。• 通过使用轻量级一维卷积代替密集的递归连接,CRSNN能够利用时间信号中的局部相关性,显著减少参数开销。• 结合DelRec延迟学习机制,CRSNN在处理长时间依赖时表现出色,保持了高效的时间建模能力。• 这种方法特别适用于具有局部时间相关性的信号,如音频频谱图,展示了在神经形态硬件上的潜力。

方法详解

CRSNN的设计包括以下几个关键步骤:• 使用轻量级一维卷积代替密集的递归连接,减少参数开销。• 结合DelRec延迟学习机制,通过可学习的轴突延迟增强时间建模能力。• 在实现上,使用循环缓冲区来管理递归输入,并通过可微分的三角形扩展函数进行优化。• 在训练过程中,使用代理梯度学习方法来优化SNN参数,确保模型的高效训练。

实验设计

实验设计包括在两个神经形态音频基准数据集上的评估:Spiking Heidelberg Digits (SHD)和Spiking Speech Commands (SSC)。• 在SHD数据集上,评估了CRSNN在2层和4层隐藏层下的性能,并与DelRec进行对比。• 在SSC数据集上,使用原始超参数进行训练。• 实验中使用了标准的交叉熵损失函数,并对超参数进行了优化。• 进行了消融研究,以评估可学习延迟对模型性能的影响。

结果分析

在SHD数据集上,CRSNN实现了91.51%的准确率,与DelRec的91.72%接近,但递归参数减少了99.6%。此外,推理时间缩短了52倍,显示出在在线流媒体应用中的潜力。在SSC数据集上,CRSNN在使用原始超参数的情况下达到了78.59%的准确率,尽管比DelRec低4个百分点,但在参数效率上有显著提升。消融研究表明,去除可学习延迟会导致性能显著下降,尤其是在SHD数据集上,准确率下降超过2个百分点,强调了自适应时间动态的重要性。

应用场景

CRSNN在资源受限的边缘计算设备上具有广泛的应用潜力。• 在实时音频处理和语音识别中,CRSNN能够提供快速、高效的推理能力。• 在神经形态硬件上,CRSNN通过减少参数开销和能耗,展示了在物联网设备中的应用前景。• 未来的研究可以探索CRSNN在其他类型时间序列数据上的性能,如手势识别和生物医学信号处理。

局限与展望

尽管CRSNN在参数效率和推理速度上表现出色,但在某些任务上的表现仍有改进空间,特别是在Spiking Speech Commands数据集上。• 在层数增加时,可能会导致过拟合,需要进一步优化模型结构。• 目前的实现主要针对音频数据,其他类型的时间序列数据可能需要调整。未来的研究可以探索如何在更大规模的数据集上保持性能,并优化延迟学习机制以提高泛化能力。

通俗解读 非专业人士也能看懂

想象一下你在厨房做饭。传统的神经网络就像一个需要不断搅拌的锅,所有的食材都混合在一起,时间长了可能会糊锅。而脉冲神经网络(SNNs)就像一个智能的烤箱,它只在需要的时候才加热,节省了能源。递归脉冲神经网络(RSNNs)则像是一个多层烤箱,可以在不同的时间段内处理不同的食材,确保每个食材都能得到充分的烹饪。然而,传统的RSNNs在处理复杂的时间序列数据时,可能会因为锅太大而导致食材过多,难以控制。本文提出的CRSNN就像是一个带有智能温控的烤箱,通过使用卷积连接来减少不必要的搅拌,同时保持对食材的精确控制。这样一来,我们不仅节省了能源,还能确保每道菜都能在最佳时间点上桌。

简单解释 像给14岁少年讲一样

嘿,小伙伴们!今天我们来聊聊一个超级酷的东西——脉冲神经网络(SNNs)。想象一下,你在玩一个超级复杂的电子游戏,需要同时控制很多角色。传统的神经网络就像是一个需要你同时按下很多按钮的控制器,时间长了手会很累。而SNNs就像是一个智能的游戏手柄,只在你需要的时候才按下按钮,超级省力!

现在,递归脉冲神经网络(RSNNs)就更厉害了,它们就像是一个能记住你之前操作的超级手柄,可以帮助你在游戏中做出更聪明的决策。但有时候,手柄上的按钮太多,可能会让你按错。于是,科学家们发明了一种新的手柄——CRSNN,它就像是一个带有智能触控的手柄,只需要轻轻一滑,就能完成复杂的操作。

这个新手柄不仅能帮你在游戏中快速反应,还能节省电池,真是太棒了!不过,这个手柄在某些游戏中可能还需要一些改进,比如在语言游戏中,它可能需要更多的调试。但总的来说,它为我们提供了一个更高效、更智能的游戏体验。是不是很酷?

术语表

Spiking Neural Networks (脉冲神经网络)

SNNs是一种生物启发的神经网络模型,通过稀疏、异步的二进制事件进行信息编码,特别适用于神经形态硬件。

在本文中,SNNs用于处理复杂的时间序列数据,提供高效的计算框架。

Recurrent Spiking Neural Networks (递归脉冲神经网络)

RSNNs通过引入递归连接和神经元状态动态,能够在长时间范围内整合信息,展示出丰富的时间行为。

本文探讨了RSNNs在处理长时间依赖时的局限性,并提出了改进方案。

Convolutional Recurrent Spiking Neural Networks (卷积递归脉冲神经网络)

CRSNN结合了卷积连接和可学习的延迟机制,能够利用时间信号中的局部相关性,显著减少参数开销。

本文提出了CRSNN作为一种新的架构,用于提高时间建模能力。

DelRec

DelRec是一种递归脉冲神经网络架构,结合了可学习的轴突延迟,增强了时间建模能力。

本文在DelRec的基础上,提出了结合卷积连接的CRSNN。

Learnable Delays (可学习延迟)

在神经网络中,延迟指的是信号从一个神经元传递到另一个神经元所需的时间。可学习延迟允许网络在训练过程中自动调整这些时间,以优化性能。

本文通过引入可学习延迟,提高了模型的时间建模能力。

Surrogate Gradient Learning (代理梯度学习)

SGL是一种用于训练SNNs的技术,通过用平滑近似替代Heaviside函数的真实导数,使得标准的反向传播可以用于优化SNN参数。

本文使用SGL来优化CRSNN的参数,确保模型的高效训练。

Spiking Heidelberg Digits (SHD) Dataset

SHD数据集是一个用于评估脉冲神经网络的神经形态音频基准数据集,包含不同语言的数字音频样本。

本文在SHD数据集上评估了CRSNN的性能。

Spiking Speech Commands (SSC) Dataset

SSC数据集是一个用于语音命令识别的神经形态音频基准数据集,包含多种语言的语音命令样本。

本文在SSC数据集上评估了CRSNN的性能。

Axonal Delays (轴突延迟)

轴突延迟是指信号在神经元之间传递时的时间延迟,影响神经网络的时间建模能力。

本文通过引入可学习的轴突延迟,增强了CRSNN的时间建模能力。

Circular Buffer (循环缓冲区)

循环缓冲区是一种数据结构,用于管理递归神经网络中的递归输入,确保信号在不同时间步之间的传递。

本文在实现CRSNN时使用了循环缓冲区来管理递归输入。

Leaky Integrate-and-Fire (LIF) Neuron

LIF神经元是一种常用的脉冲神经元模型,结合了生物真实性和计算效率,适用于神经形态计算。

本文在CRSNN中使用LIF神经元进行时间建模。

Temporal Modeling (时间建模)

时间建模是指在神经网络中对时间序列数据进行处理和分析,以捕捉其中的时间依赖关系。

本文通过结合卷积和延迟学习,增强了CRSNN的时间建模能力。

Neuromorphic Hardware (神经形态硬件)

神经形态硬件是一种专为运行脉冲神经网络设计的硬件架构,能够高效地处理稀疏、异步的二进制事件。

本文探讨了CRSNN在神经形态硬件上的应用潜力。

Gradient Vanishing (梯度消失)

梯度消失是指在长时间序列上训练递归神经网络时,梯度逐渐变小,导致模型难以学习长时间依赖。

本文通过引入可学习延迟,缓解了梯度消失问题。

Gradient Explosion (梯度爆炸)

梯度爆炸是指在长时间序列上训练递归神经网络时,梯度变得过大,导致模型不稳定。

本文通过引入可学习延迟,缓解了梯度爆炸问题。

开放问题 这项研究留下的未解疑问

  • 1 尽管CRSNN在音频数据上表现出色,但其在其他类型时间序列数据上的性能仍需进一步验证。现有研究主要集中在音频数据上,未来需要探索在手势识别、生物医学信号处理等领域的应用。
  • 2 CRSNN在Spiking Speech Commands数据集上的准确率低于DelRec,表明在某些任务上可能需要进一步优化。未来的研究可以探索如何调整超参数和模型结构,以提高在不同任务上的泛化能力。
  • 3 目前的实现主要针对神经形态硬件,如何在传统硬件上高效运行CRSNN仍需进一步研究。特别是在大规模数据集上的性能优化,是一个亟待解决的问题。
  • 4 延迟学习机制在不同任务上的泛化能力仍需验证。尽管在音频数据上表现良好,但在其他类型时间序列数据上的表现仍需进一步研究。
  • 5 CRSNN在层数增加时可能会导致过拟合,特别是在参数减少的情况下。未来的研究可以探索如何在不增加参数的情况下提高模型的泛化能力。

应用场景

近期应用

实时音频处理

CRSNN能够在资源受限的边缘设备上实现快速、高效的音频处理,适用于语音识别和音频分类等应用。

神经形态硬件应用

通过减少参数开销和能耗,CRSNN在物联网设备中展示了应用前景,特别是在需要低功耗的场景中。

在线流媒体应用

CRSNN的快速推理能力使其适用于在线流媒体应用,能够在实时处理音频数据的同时保持高效的性能。

远期愿景

手势识别

未来的研究可以探索CRSNN在手势识别中的应用,通过结合卷积和延迟学习,提高对复杂时间序列数据的建模能力。

生物医学信号处理

CRSNN在生物医学信号处理中的应用潜力巨大,特别是在处理复杂的生物医学时间序列数据时,能够提供高效的解决方案。

原文摘要

Spiking neural networks (SNNs) are rapidly gaining momentum as an alternative to conventional artificial neural networks in resource constrained edge systems. In this work, we continue a recent research line on recurrent SNNs where axonal delays are learned at runtime along with the other network parameters. The first proposed approach, dubbed DelRec, demonstrated the benefit of recurrent delay learning in SNNs. Here, we extend it by advocating the use of convolutional recurrent connections in conjunction with the DelRec delay learning mechanism. According to our tests on an audio classification task, this leads to a streamlined architecture with smaller memory footprint (around 99% savings in terms of number of recurrent parameters) and a much faster (52x) inference time, while retaining DelRec's accuracy. Our code is available at: https://github.com/luciozebendo/delrec_snn/tree/conv_delays

cs.NE

参考文献 (9)

DelRec: learning delays in recurrent spiking neural networks

Alexandre Queant, Ulysse Rançon, Benoit R. Cottereau 等

2025 8 引用 ⭐ 高影响力 查看解读 →

Learning Delays in Spiking Neural Networks using Dilated Convolutions with Learnable Spacings

Ilyass Hammouamri, Ismail Khalfaoui Hassani, T. Masquelier

2023 103 引用 查看解读 →

Training Spiking Neural Networks Using Lessons From Deep Learning

J. Eshraghian, Max Ward, Emre O. Neftci 等

2021 768 引用 查看解读 →

Surrogate Gradient Learning in Spiking Neural Networks: Bringing the Power of Gradient-based optimization to spiking neural networks

Emre O. Neftci, H. Mostafa, Friedemann Zenke

2019 1651 引用 查看解读 →

Advancing spatio-temporal processing through adaptation in spiking neural networks

Maximilian Baronig, Romain Ferrand, Silvester Sabathiel 等

2024 23 引用 查看解读 →

ASRC-SNN: Adaptive Skip Recurrent Connection Spiking Neural Network

Shang Xu, Jiayu Zhang, Ziming Wang 等

2025 3 引用 查看解读 →

The Heidelberg Spiking Data Sets for the Systematic Evaluation of Spiking Neural Networks

Benjamin Cramer, Yannik Stradmann, J. Schemmel 等

2019 308 引用 查看解读 →

DelGrad: exact event-based gradients for training delays and weights on spiking neuromorphic hardware

Julian Goltz, Jimmy Weber, Laura Kriener 等

2024 15 引用 查看解读 →

Co-learning synaptic delays, weights and adaptation in spiking neural networks

Lucas Deckers, Lauren Damme, Ing Jyh Tsang 等

2023 28 引用 查看解读 →