← 返回信息流
技术博客arXiv cs.AI·3 天前

低秩进化策略实现脉冲神经网络无梯度训练

原标题:Gradient-Free Training of Spiking Neural Networks via Low-Rank Evolution Strategies

速览

针对脉冲神经网络(SNN)因离散阈值导致难以反向传播的问题,研究提出EGGROLL方法。该方法利用低秩分解进化策略扰动,将内存复杂度从O(mn)降至O(r(m+n))。在N-MNIST数据集上,该方法实现了79.21%的测试准确率,训练速度比全秩进化策略提升2.23倍。此成果证明了无梯度训练在神经形态硬件上的可行性,为SNN训练提供了高效替代方案。

AI 深度解读

基于低秩进化策略的无梯度脉冲神经网络训练方法解读

背景

脉冲神经网络(Spiking Neural Networks, SNNs)因其极高的能效表现,被视为下一代神经形态硬件(Neuromorphic Hardware)的理想算法基础。然而,SNN 的训练一直面临着一个核心难题:神经元发放脉冲的阈值函数是离散的、非连续的,导致其不可微。这一特性使得传统的基于反向传播(Backpropagation)和梯度下降的深度学习框架难以直接应用。

为了解决这一问题,现有的主流方案通常采用“代理梯度”(Surrogate-gradient)方法。该方法通过用一个可微函数来近似不可微的脉冲激活函数,从而允许梯度的反向传播。虽然这种方法在离线训练中效果显著,但它存在两个主要缺陷:

  1. 基础设施不兼容:它依赖于复杂的反向传播架构,这与神经形态芯片上追求的“片上学习”(On-chip learning)理念相悖。片上学习要求算法能够在硬件本地高效运行,而不需要外部服务器的支持。
  2. 计算成本高昂:另一种自然的替代方案是进化策略(Evolution Strategies, ES)。ES 是一种无梯度优化方法,通过评估种群适应度来更新参数。然而,标准 ES 的计算复杂度与参数数量呈线性甚至更高比例增长,对于拥有数百万甚至数十亿参数的大型权重矩阵而言,其计算和内存开销使其在实际应用中变得不可行。

因此,如何在保持无梯度优势(即兼容片上学习)的同时,大幅降低进化策略的计算成本,成为该领域亟待解决的关键问题。

核心内容

本文提出了一种名为 EGGROLL 的新方法,旨在通过低秩分解技术优化进化策略在 SNN 训练中的应用。

1. EGGROLL 方法原理

EGGROLL 的核心思想是对进化策略中的扰动(Perturbations)进行低秩分解(Low-Rank Factorisation)。

  • 传统 ES 的瓶颈:在标准的进化策略中,为了估计梯度方向,算法需要对每个参数生成随机扰动。如果模型有 $m \times n$ 个参数,每代所需的内存和计算量通常与参数总数成正比,即 $\mathcal{O}(mn)$。
  • EGGROLL 的优化:EGGROLL 将扰动矩阵分解为两个低秩矩阵的乘积。假设分解后的秩为 $r$(其中 $r \ll \min(m, n)$),那么每代所需的内存复杂度从 $\mathcal{O}(mn)$ 降低到 $\mathcal{O}(r(m+n))$。这种分解极大地减少了每代迭代所需的内存占用,使得在资源受限的神经形态硬件上运行大规模 SNN 训练成为可能。

2. 实验设置与结果

为了验证 EGGROLL 的有效性,研究团队将其应用于 Leaky Integrate-and-Fire (LIF) 类型的 SNN,并在 N-MNIST(神经形态 MNIST 数据集)上进行了测试。

  • 准确率:使用 EGGROLL 训练的 SNN 在测试集上达到了 79.21% 的准确率。
  • 效率提升:与全秩(Full-rank)进化策略相比,EGGROLL 将每代的实际运行时间(Wall-clock time)减少了 2.23 倍

3. 核心优势

  • 无梯度训练:完全不需要代理梯度或反向传播,从根本上解决了 SNN 不可微的问题。
  • 硬件兼容性:由于无需复杂的反向传播基础设施,该方法天然适合部署在神经形态硬件上进行片上学习。
  • 性能权衡:在准确率略有牺牲(相对于最优的有监督学习或复杂的代理梯度方法)的情况下,换取了巨大的计算效率提升和内存节省。

关键要点

  • 问题定义:SNN 因脉冲阈值不可微而难以训练,代理梯度法虽有效但不兼容片上学习,而标准进化策略计算成本过高。
  • 创新方法:提出了 EGGROLL,一种基于低秩分解的进化策略扰动优化方法。
  • 复杂度降低:将每代内存复杂度从 $\mathcal{O}(mn)$ 降低至 $\mathcal{O}(r(m+n))$,显著提升了可扩展性。
  • 实验验证:在 N-MNIST 数据集上,LIF-SNN 结合 EGGROLL 达到了 79.21% 的测试准确率。
  • 效率对比:相比全秩进化策略,EGGROLL 将每代运行时间缩短了 2.23 倍。
  • 适用场景:该方法证明了无梯度训练在 SNN 中的可行性,特别适用于需要避免代理梯度、追求硬件友好型片上学习的场景。

意义与影响

这项研究在神经形态计算和脉冲神经网络领域具有重要的理论和实践意义:

  1. 推动片上学习(On-chip Learning)的发展: 目前,许多神经形态芯片旨在模拟人脑的局部学习规则,避免数据在芯片与外部存储器之间频繁搬运。代理梯度法需要全局误差信号的反向传播,这在硬件实现上极具挑战性。EGGROLL 提供的无梯度方案,为在资源受限的端侧设备上进行高效、本地化的 SNN 训练提供了一条切实可行的路径。

  2. 降低 SNN 部署门槛: 通过大幅降低进化策略的计算和内存开销,EGGROLL 使得原本只适用于小规模网络的进化算法能够应用于更复杂的 SNN 架构。这有助于缩小 SNN 与传统人工神经网络(ANN)在训练便利性上的差距,尽管目前准确率仍有差距,但效率的提升为特定应用场景(如低功耗物联网设备)提供了新的选择。

  3. 探索无梯度优化的新范式: 将低秩分解技术引入进化策略,不仅解决了 SNN 训练问题,也为其他基于梯度的优化难题提供了思路。这种“通过结构简化来换取计算效率”的策略,可能在其他大规模参数模型的无监督或强化学习场景中发挥类似作用。

  4. 准确性与效率的平衡: 79.21% 的准确率在 N-MNIST 上虽然不及最先进的监督学习方法,但考虑到其完全无梯度、无需反向传播的特性,这一结果证明了进化策略在 SNN 训练中并非不可行,而是可以通过算法优化达到实用水平。这为研究人员在“精度”与“硬件兼容性/能效”之间进行权衡提供了重要的参考基准。

查看原文 →arxiv.org