SSTFormer: Bridging Spiking Neural Network andMemory Support Transformer for Frame-Eventbased Rec

本文链接：https://blog.csdn.net/weixin_46687145/article/details/140187984

标题：SSTFormer：一种连接脉冲神经网络与记忆支持变换器，用于基于帧事件的识别

源文：https://arxiv.org/abs/2308.04369https://arxiv.org/abs/2308.04369

源码：GitHub - Event-AHU/SSTFormer: [PokerEvent Benchmark Dataset & SNN-ANN Baseline] Official PyTorch implementation of "SSTFormer: Bridging Spiking Neural Network and Memory Support Transformer for Frame-Event based Recognition"[PokerEvent Benchmark Dataset & SNN-ANN Baseline] Official PyTorch implementation of "SSTFormer: Bridging Spiking Neural Network and Memory Support Transformer for Frame-Event based Recognition" - Event-AHU/SSTFormerhttps://github.com/Event-AHU/SSTFormer

摘要

基于事件相机的模式识别是近年来新兴的研究课题。当前的研究者通常将事件流转换为图像、图形或体素，并采用深度神经网络进行基于事件的分类。尽管在简单的事件识别数据集上可以达到较好的性能，但它们的结果可能仍然受到以下两个问题的限制。首先，它们仅使用空间稀疏的事件流进行识别，这可能无法充分捕捉颜色和详细纹理信息。其次，它们要么采用脉冲神经网络（SNN）进行能效较低但效果次优的识别，要么采用人工神经网络（ANN）进行能耗较高但性能优异的识别。然而，很少有研究试图在这两方面之间找到平衡。本文正式提出通过同时融合RGB帧和事件流来识别模式，并提出了一种新的RGB帧-事件识别框架来解决上述问题。所提出的方法包含四个主要模块，即用于RGB帧编码的记忆支持变换器网络，用于原始事件流编码的脉冲神经网络，用于RGB-事件特征聚合的多模态瓶颈融合模块，以及预测头。由于基于RGB-事件分类的数据集稀缺，我们还提出了一大规模的PokerEvent数据集，其中包含114个类别，以及使用DVS346事件相机记录的27102对帧-事件。在两个基于RGB-事件分类的数据集上的广泛实验充分验证了我们提出的框架的有效性。我们希望这项工作能够推动融合RGB帧和事件流的模式识别领域的发展。我们的数据集和本工作的源代码将在https://github.com/Event-AHU/SSTFormer上发布。

索引术语:脉冲神经网络，变压器网络，瓶颈机制，视频分类，仿生计算

1.引言

主流的基于视频的分类算法广泛地基于RGB相机开发。借助深度学习，许多代表性的深度模型被提出，例如TSM [1], C3D [2], SlowFast [3], DevNet [4], TSN [5], Attnclusters [6] 和 Video-SwinTrans [7] 等等。这些工作很好地学习了深度特征表示，并对许多实际应用和视频相关任务做出了重大贡献。然而，由于使用了RGB相机，在一些极具挑战性的场景（例如快速运动、低光照和过度曝光）下，这些模型的表现可能不佳。这是因为RGB相机采用了全局同步曝光机制，并且具有有限的帧率。

最近，受生物学启发的事件相机（也称为DVS，动态视觉传感器）因其独特的成像原理和关键特性（包括高动态范围、高时间分辨率、低延迟、低功耗等）引起了极大的兴趣 [8]–[11]。不同于以同步方式记录场景光强度的RGB相机，事件相机中的每个像素只有当光强度的变化超过一定阈值时才输出事件脉冲。亮度减少对应的事件被称为ON事件，否则为OFF事件。通常，每个事件可以表示为四元组{x, y, t, p}，其中x, y表示空间坐标，t是时间戳，p是极性（1和-1分别表示ON和OFF事件）。事件相机已被应用于许多计算机视觉任务，如物体检测、视觉跟踪 [12], [13]，姿态估计等。图1展示了由DVS346相机同步记录的RGB和事件场景。

有一些工作，如图神经网络（GNN）[14], [15]，卷积神经网络（CNN）[16], [17]，和脉冲神经网络（SNN）[18], [19]，已经被提出用于事件相机的模式识别。例如，异步事件图神经网络（AEGNN [15]）被提出以增量学习的方式处理事件作为时空图。周等人将脉冲神经元与Transformer网络结合，提出了Spikformer [18]，用于事件数据表示和识别。王等人提出了基于CNN的模型用于步态识别，称为EV-Gait [16]。然而，我们认为这些工作可能受限于以下几个问题。首先，现有工作专注于为基于事件的识别设计纯SNN或人工神经网络（ANN）。SNN在节省能源消耗方面表现更好，而ANN实现了更高的分类性能。但是，这两种神经网络之间的权衡很少被考虑。第二，这些工作仅基于单一的事件相机开发，同时事件流在空间视图中是稀疏的。它也无法捕捉对于模式识别重要的颜色和详细纹理信息。正如许多作品中所指出的 [12], [13], [20]–[22]，结合多模态线索以获得更高性能将是一个更好的选择。

为了解决上述两个问题，本文提出了一种新型框架，整合视觉帧和事件流进行模式识别。总体而言，它主要包括四个主要模块，即脉冲神经网络（SNN）、记忆支持变换器网络（MST）、多模态瓶颈融合（MBF）模块和预测头。不同于现有工作将事件流转换为图像样式的表示 [23]，图 [15] 或体素 [24]，我们提出了一种脉冲神经网络（SNN），它直接将原始事件流作为输入进行节能感知。同时，使用ANN解码器积累并增强了多尺度特征，因此，我们的SCNN分支可以在识别性能和能源消耗之间实现更好的权衡。对于RGB帧，我们提出了一个新的记忆支持变换器网络（MST）来编码时空信息。在将原始帧嵌入特征图后，我们首先按时间顺序将特征图分为多个片段。受少样本学习 [25] 的启发，它通过支持样本提升查询样本的特征学习和预测，在本工作中，我们将每个片段的最后一个特征视为查询向量，其余部分与从上一个片段传播的记忆相结合作为记忆支持特征。门控循环单元（GRU）网络用于捕获时间信息。然后，其输出和查询向量被送入交叉注意力模块进行自适应融合。最后，引入一个多模态瓶颈融合（MBF）模块，用于融合RGB和事件特征进行模式识别。我们提出的基于RGB-事件的识别框架的概览如图2所示。

此外，考虑到目前缺乏大规模的RGB-事件分类数据集来支持实验验证，本文提出了一种新的数据集来填补这一数据空白，称为PokerEvent。它是使用DVS346事件相机录制的，该相机可同时输出对齐的RGB帧和事件流。它包含114个类别，27102对帧-事件，分辨率是346×260。我们将它们分为训练、验证和测试子集，分别包含16216、2687和8199个样本。

总体而言，本文的主要贡献可总结为以下三个方面：
• 我们提出了一种新颖的基于帧-事件的模式识别框架，主要包含脉冲神经网络（SNN）、记忆支持变换器网络（MST）和多模态瓶颈融合（MBF）模块。据我们所知，这是首次将RGB帧和事件流表示结合用于分类的工作，它在能源消耗和识别准确性之间实现了更好的权衡。
• 我们提出了一个新的大规模RGB-事件分类数据集PokerEvent，它包含16216、2687和8199个样本用于训练、验证和测试。我们相信，这个数据集将极大地促进与事件相机相关的模式识别任务。
• 在两个大规模的RGB-事件分类数据集上进行的广泛实验充分验证了我们提出的框架的有效性。

本文的其余部分组织如下：我们在第二节介绍相关工作。第三节主要描述了本文提出的方法，重点在于输入表示、网络架构和损失函数。实验在第四节进行。我们在第四节A中描述了新提出的PokerEvent数据集的细节。最后，我们在第五节中总结了本文。

2.相关工作

在本节中，我们简要回顾了基于事件的分类、脉冲神经网络和变换器网络的相关工作。更多相关工作可以在以下综述中找到 [26]–[28]。

A. 基于事件的分类

基于事件相机的识别主流可以分为以下几类，即基于CNN [16]、GNN [14], [15] 和SNN [18], [19] 的方法。具体来说，Arnon等人 [29] 提出了第一个基于TrueNorth神经突触处理器的手势识别系统。Xavier等人 [30] 提出了一种用于局部角点检测和全局手势识别的无亮度事件基特征。Chen等人 [31] 提出了一种基于DVS的手势识别系统，并设计了一款带有高频主动LED标记的可穿戴手套，充分利用了其特性。Chen等人 [32] 提出了一种仿生事件驱动表示（EDR），它可以实现生物视网膜的三个重要功能，即对数变换、ON/OFF通路和多时间尺度的整合。在 [33] 中，作者表示了局部空间邻域内的近期时间活动，并利用事件提供的丰富时间信息以时间表面的形式创建上下文，称为HOTS，用于识别任务。Wu等人首先将事件流转换为图像，然后预测并将人体姿势与事件图像结合用于HAR [34]。Wang等人 [16] 提出了一个基于CNN的模型用于事件基步态识别。图神经网络（GNN）和SNN也被充分利用于基于事件的识别 [35]–[45]。具体而言，Chen等人 [44] 将事件流视为3D点云，并使用动态GNN学习用于手势识别的空间时间特征。Wang等人 [45] 开发了一个基于事件的步态识别的图神经网络。Xing等人设计了一个用于事件基序列的脉冲卷积递归神经网络（SCRNN）架构 [43]。从这些工作中，我们可以发现之前的学者采用SNN进行节能计算并满足最终结果，或者采用ANN进行耗能但高性能的识别。不同于这些工作，我们提出的基于RGB-事件的识别框架在能源消耗和识别性能之间实现了更好的权衡。

B. 脉冲神经网络

由于其在能源消耗方面的优势，越来越多的研究人员致力于脉冲神经网络的研究 [46]–[48]。具体来说，Lee等人 [49] 联合使用SNN和ANN进行层次化的光流估计。Federico等人 [50] 提出了一种基于SpikeTiming-Dependent Plasticity（STDP） [51] 的层次化脉冲结构，用于具有局部-全局运动选择性的光流估计。Zhou等人 [48] 利用非漏失IF神经元和单脉冲时间编码训练深度SNNs。Zhou等人将脉冲神经元与变换器网络结合，提出了Spikformer [18] 用于识别。Fang等人 [19] 提出了一种新方法来学习SNNs的突触权重和膜时间常数。除了标准的识别任务外，SNNs也被广泛用于许多其他任务，如视觉跟踪和场景重建。不同于大多数这些工作，本文我们提出了一种新型的基于瓶颈融合的SNN-ANN框架用于基于RGB-事件的识别。

C. 变换器网络

在自然语言处理领域提出的变换器取得了优异的性能 [52]，并且也被其他研究社区如计算机视觉所采纳。具体来说，Vision Transformer（ViT） [53] 将图像划分为一系列不重叠的补丁，并将它们投影为令牌作为自注意力模块的输入。它们的成功归功于各种令牌之间的长期关系挖掘。DeiT [54] 提出了一种基于令牌蒸馏的策略，使用卷积网络作为教师网络，解决了需要大量数据进行预训练的问题。ConViT [55] 将CNN的归纳偏置引入到变换器中，实现了更好的结果。VOLO [56] 使用两阶段结构，可以通过简单的线性变换生成与其周围令牌相对应的注意力权重，避免了原始自注意力机制的昂贵计算成本。Swin Transformer [57] 引入了滑动窗口机制，使模型能够处理超分辨率图像，解决了ViT模型中计算复杂度高的问题。Chen等人通过对比学习提出了MoCo v3 [58]，用于基于ViT的自监督学习。He等人在自动编码器框架下随机屏蔽高比例的补丁，并提出了MAE [59] 进行自监督学习。像CLIP [60] 这样的预训练多模态大模型也是基于视觉变换器骨干网络开发的。更多的任务通过遵循基于变换器的特征学习框架得到增强，包括图像识别 [57]、动作识别 [61]、目标检测 [62]、语义分割 [63] 等。不同于这些工作，我们提出了一种新型的记忆支持变换器，用于捕捉用于识别的空间时间信息。

3.方法

在本节中，我们将首先概述我们提出的RGB-事件识别框架。然后，我们将简要介绍输入RGB帧和事件流的表示。随后，我们将深入探讨我们的方法细节，重点放在记忆支持变换器网络（MST）、脉冲卷积神经网络（SCN）、多模态瓶颈融合（MBF）模块以及预测头。接着，我们将介绍训练阶段使用的损失函数。最后，我们将通过集成SpikingFormer和新提出的MST模块介绍基于双变换器的RGB-事件识别网络。

A. 概览

如图2所示，我们提出的RGB-事件物体识别框架以RGB帧和事件流作为输入。对于RGB帧，我们首先使用StemNet（在我们的实现中使用ResNet18/ResNet50 [64]）获取它们的特征嵌入，并提出采用支持查询特征学习架构来学习空间-时间表示。更具体地讲，对于分段的帧剪辑，我们首先使用GRU网络编码特征嵌入和前一记忆输出。然后，采用交叉注意力捕捉支持和查询特征之间的依赖关系。对于事件流，我们提出了一种混合SNN-ANN网络直接处理原始事件点。SNN编码器包含几个脉冲卷积层，同时，ANN解码器被提出以进一步增强特征表示学习。我们提出了多模态瓶颈特征来加强RGB帧和事件流之间的交互学习。最后，输出特征被输入到两个全连接层中进行基于RGB-事件的模式识别。此外，我们还利用基于双变换器的网络架构来实现基于RGB-事件的识别，该架构集成了SpikingFormer [65] 和我们新提出的MST模块。

图2：我们为基于RGB-事件模式识别提出的多模态融合框架概览。我们提出了一种新颖的脉冲神经网络（SNN，Spiking Neural Network），这是一种混合的SNN-ANN（人工神经网络）网络，能够直接编码原始事件流，而无需将其预处理为中间形式的表达。这种方法在能耗与整体识别效果之间实现了更好的平衡。对于RGB输入，我们设计了一种创新的记忆支持型Transformer（MST）网络，以学习空间-时间信息。首先，我们将视频帧分割成多个片段，然后将每个片段的最后一帧作为查询帧，其余帧作为支持帧，并利用交叉注意力机制进行支持-查询交互式学习。SCNN（假设是处理事件流的SNN模块）和MST模块的输出通过瓶颈特征映射进行融合，随后送入预测头进行识别。

B. 输入表示

不同于现有的方法，这些方法将事件流转换为类似图像的表示[23]、图[15]或体素[24]，我们提出了一种脉冲神经网络(SNN)，它可以直接接收原始事件流作为输入，以实现能效感知。给定事件流E={e1, e2, ..., eT}，其中ei表示事件点，T是事件点的最大数量。通常，我们用四元组(x, y, t, p)来表示每个事件点，其中x, y是空间坐标，t是时间戳，p是极性。由于密集的时间信息，在长且快速移动的场景中，会捕获大量的事件。因此，先前的研究人员通常首先使用最远点采样技术[66]将密集的事件流下采样为稀疏的事件流，或将它们堆叠成类似图像的表示[16]、体素[24]等。我们认为这些操作可能会在一定程度上损失时间信息。在本文中，我们直接将原始事件点作为输入，并提出了脉冲神经网络(SNN)来学习空间-时间信息。下面，我们将视觉视频序列F={f1, f2, ..., fN}表示为具有N帧的序列，其中fi表示第i个视频帧。

C. 网络架构

如图2所示，我们提出的框架中有四个主要模块，包括脉冲卷积神经网络(SCN)、记忆支持型Transformer(MST)、多模态瓶颈融合(MBF)和预测头。以下将分别介绍这些模块。

脉冲神经网络

给定事件流E，我们提出了一种新型的脉冲神经网络(SNN)来直接编码原始事件。因此，我们不需要对脉冲信号执行特殊处理，而是可以直接利用SNN的空间-时间建模能力进行特征学习。通常来说，它包含两大部分，即脉冲神经网络(SNN)编码器和ANN解码器。更详细地说，SNN编码器包含八个卷积层，每两层之间使用一个脉冲神经元。在实际实现中，可以选用多种脉冲神经元，如IF[67,68]、LIF[69]和LIAF[70]神经元。例如，在LIF[69]中，脉冲神经元的过程计算如下：

$\tau\frac{dU}{dt}=-U+RI,\quad\text{(1)}$

其中I和R分别表示电流和输入电阻，τ是电路的时间常数，t和U分别表示时间和膜电位。上述方程可以公式化为离散近似版本：

$u_i^t=\lambda u_i^{t-1}+\sum_jw_{ij}s_j^t-s_i^{t-1}\theta,\quad(2)$

其中θ表示放电阈值，ut_i是步骤t的电压。si用于指示神经元是否产生脉冲。具体而言，如果ut_i大于θ，则st_i = 1，否则，st_i = 0。ui是神经元i的膜电位。λ是小于1的膜电位泄漏常数。wij表示神经元i与其前突触神经元j之间的权重。

为了帮助读者更好地理解脉冲神经元，我们提供了广泛使用的ANN神经元、IF和LIF脉冲神经元之间的比较。ANN神经元(如图3(a)所示)在当前深度学习网络架构中广泛使用，例如ReLU(修正线性单元)激活层，如果输入为正则直接输出输入，否则输出零。它通过引入非线性帮助模型学习复杂模式。对于IF(整合与发放)神经元(图3(c))，它整合传入信号直到达到某个阈值，此时它会发放或产生输出脉冲。IF神经元尽管简单，但捕捉了神经活动的基本思想。对于LIF(漏泄整合与发放)神经元(如图3(b)所示)，它在整合过程中引入了一个泄漏项，这意味着如果没有达到发放阈值，累积的电荷会随时间减少。值得注意的是，这种泄漏设计模仿了生物学现实，即如果不受到刺激，神经元会逐渐失去电荷。简而言之，ReLU非常适合处理连续数据的传统ANN，而IF和LIF神经元则更专门用于脉冲神经网络，捕捉生物神经系统的时序动态。

作为一种仿生神经网络，我们提出的SNN编码器可以明显降低能量消耗。在SNN编码器的每个模拟步骤中，我们在第4、6、8卷积层后提取和积累电压信息，并得到A1、A2、A3特征表示，如图2所示。为了实现更稳健的特征表示学习，我们引入了两个反卷积层(即图2中的T1和T2)，以增强和融合多尺度电压信息。值得注意的是，这种混合SNN-ANN网络架构可以在能耗和整体性能之间实现更好的权衡。

内存支持型Transformer

为了处理RGB模态，本文提出了一种新颖的内存支持型Transformer，它通过查询帧和支撑帧之间的交叉注意力机制循环地学习空间-时间特征。具体而言，我们首先采用预训练的ResNet获得给定帧F={f1, f2, ..., fN}的特征嵌入 $\hat{F}=\{\hat{f}_{1}, \hat{f}_{2},..., \hat{f}_{N}\}$ 。然后，我们将这些特征嵌入分割成多个片段。在我们的实现中，每个片段包含对应于四帧的特征。前三个特征嵌入和前一片段的输出被视为支持特征，最后一个则是查询特征。这一想法借鉴了少量样本学习(few-shot learning)，其中查询帧表示需要推理的样本，而支撑特征表示带有标签的样本，有助于查询帧的推理。在这种情况下，该机制将基于支撑特征提供的时序信息，增强查询帧的特征学习。为了实现这一目标，我们引入了门控循环单元(GRU)网络来学习支撑特征的时序信息，详细的计算过程可总结为： $r_{t}=\delta(W_{ir}x_{t}+b_{ir}+W_{hr}h_{(t-1)}+b_{hr}),\text{(3)}\\z_{t}=\delta(W_{iz}x_{t}+b_{iz}+W_{hz}h_{(t-1)}+b_{hz}),\text{(4)}\\n_{t}=tanh(W_{in}x_{t}+b_{in}+r_{t}\odot(W_{hn}h_{(t-1)}+b_{hn})),\text{(5)}\\h_{t}=(1-z_{t})\odot n_{t}+z_{t}\odot h_{(t-1)},\text{(6)}$

其中 $W_{ir},W_{hr},W_{iz},W_{hz},W_{in},W_{hn}$ 是可学习的权重参数， $b_{ir},b_{hr},b_{iz},b_{hz},b_{in},b_{hn}$ 是神经网络中的偏置。h(t-1)和h_t分别是时间t-1和t的隐藏特征表示。tanh是激活层， $\delta$ 是sigmoid函数， $\odot$ 是哈达玛乘积， $r_t,z_t,n_t$ 分别是重置门、更新门和新门。由于我们的MST以循环方式处理时序特征，因此，前一步的交叉注意力输出也通过连接操作在当前步骤中被考虑。给出GRU网络的输出后，我们采用交叉注意力机制来融合支撑特征和查询特征。在我们的案例中，查询Q是片段中的最后一个嵌入，键K和值V是GRU网络的输出。数学上，交叉注意力可以表示为：

$CrossAttn=Softmax(\frac{QK^T}{\sqrt{c}})V\quad(7)$

其中c是特征维度。内存支持型Transformer的输出将与SCNN特征连接，用于最终预测。

多模态瓶颈融合

本文中，我们通过采用瓶颈融合机制[71]聚合RGB帧和事件流，以实现更准确的模式识别。具体而言，我们随机初始化一个特征图 $Z \in R^{(16\times 60\times 60)}$ ，并与SCNN分支的输出(同为 $R^{(16\times 60\times 60)}$ )连接。然后，我们提出一个可变形卷积块来融合这些特征，如图2所示，主要包含一个2D卷积层和4个可变形卷积层。在第一和第二个卷积层后也使用了最大池化操作。本模块还使用了组归一化[72]和ReLU激活层。此模块的输出特征为32×14×14。我们将此特征分成两部分，即事件表示16×14×14和瓶颈特征16×14×14。后者将被送入内存支持型Transformer网络，进行模态间的交互学习。

内存支持型Transformer的输出特征和事件表示将被连接并展平成一个特征表示(7232-D)。然后，提出一个具有两个全连接层的预测头进行识别。第一个和第二个FC层的维度分别设置为4096和分类类别的数量。

损失函数

本文中，我们采用了交叉熵损失函数来衡量预测 $\bar{y}$ 与真实值y之间的距离。具体来说，真实值y表示为一个独热向量。损失函数可以写作：

$Loss=-[ylog\bar{y}+(1-y)log(1-\bar{y})].\quad(8)$

基于双Transformer的版本

为了实现更高的识别性能，本文还利用了脉冲Transformer网络[65]来处理事件流。如图4所示，输入首先通过包含Conv+BN层、多步LIF神经元和最大池化层的卷积模块进行编码。值得注意的是，多步LIF神经元被用作激活函数。经过多步LIF神经元后，输出将是二进制脉冲特征。然后，我们采用Conv+BN+多步LIF模块将其投影到查询(Q)、键(K)和值(V)令牌，并进行类似于Transformer网络的矩阵点积操作。接着，采用一系列LIF+Conv+BN模块和残差连接进行特征增强。在我们的实现中，输出令牌及其维度为336×256。我们初始化了64个可学习的瓶颈令牌，并将它们与脉冲Transformer输出的令牌连接，即400×256。采用两个Transformer块来处理令牌，输出将被分成两部分。第一部分用于与内存支持型Transformer进行交互，第二部分将与增强的RGB特征融合，用于最终识别。我们的实验表明，这种双Transformer网络架构可以获得更好的识别性能。

4.实验

A. 数据集与评价指标

本文在两个事件驱动的分类数据集上进行了广泛的实验，包括HARDVS[73]和我们新提出的PokerEvent数据集。HARDVS数据集使用DVS346事件相机收集，专注于人类活动识别，如跑步、撑伞、穿鞋等。该数据集包含107646个RGB-事件样本，这些视频被划分为训练、验证和测试子集，分别包含64526、10734、32386个样本。

本文提出一个新的RGB-事件模式识别基准数据集，称为PokerEvent。顾名思义，该数据集的目标对象是扑克牌上的字符图案。它包含114个类别，分别有16216/2687/8199个训练/验证/测试样本（空间分辨率为346×260），使用DVS346事件相机录制。各类别RGB-事件样本的数量分布信息可在图5中找到。我们也在图6中提供了一些代表性样本的可视化。

对于实验结果的评估，我们选择了top-1和top-5准确率作为评价指标。

B. 实施细节

在我们的实验中，批大小设置为4，选择Adam优化器[74]进行训练，初始学习率为0.001。SNN的仿真步骤固定为16，这等于单个视频样本中的帧数。对于损失函数，我们选择了广泛使用的二元交叉熵（BCE）损失来衡量真实值与预测值之间的距离。分类标签被嵌入到相应的独热特征向量中。

我们的模型包含336.48M个参数，对于一个RGB-事件样本的运行时间为0.22秒。我们的代码基于PyTorch[75]使用Python实现。所有实验都在配备RTX3090 GPU的服务器上进行。

C. 与其他SOTA模型的比较

在本节中，我们报告了我们在HARDVS和PokerEvent数据集上与其它最先进模型的分类结果。

- 在PokerEvent数据集上的结果。在本工作中，我们训练和测试了多个识别模型供未来工作对比，包括基于CNN的模型C3D[2]、TSM[1]、ACTION-Net[76]、TAM[77]、X3D[78]，以及基于Transformer的模型V-SwinTrans[7]、TimeSformer[7]、MVIT[79]等。由于这些模型是专门为基于RGB的识别开发的，然而，我们提议的任务需要融合RGB帧和事件流。因此，我们使用连接的RGB帧和事件图像来训练这些对比方法。

如表I所示，我们提出的模型在PokerEvent数据集上的top-1准确率达到53.19%，优于C3D[2]和X3D模型[78]。值得注意的是，C3D采用三维卷积神经网络学习空间-时间特征，其有效性已得到广泛验证。X3D通过在各个轴上逐步扩展2D网络开发，包括时间持续时间、帧率等。我们的结果与ACTION-Net、TAM和Video-SwinTransformer相当，它们在top-1准确率上分别为54.29、53.65和54.17。这证明了我们提出的模型与现有最先进的识别算法相比，表现相当。

- 在HARDVS数据集[73]上的结果。HARDVS基准数据集为人体活动识别提供了RGB帧和事件流。作者仅报告了基于事件流的识别结果。在本文中，我们提供了基于RGB帧及多模态设置（即RGB帧和事件流）的实验结果。对于基于事件流的识别，我们训练和测试了我们提出的SCNN子网络进行对比。如表II所示，我们发现我们的模型在top-1识别结果上达到了49.02。这一结果优于完全基于ANN的ACTION-Net（46.85）和X3D（45.82），验证了我们SCNN子网络的良好性能。SCNN的表现也与C3D、TAM和TimeSformer相当。这些结果证明，我们的SCNN网络在识别性能上与最先进的模型相当甚至更好。对于RGB帧，我们训练和测试了我们提出的记忆支持型Transformer（MST）网络，并将其与其它SOTA模型进行比较。从表II中很容易发现，我们的MST在top-1准确率上达到了48.17，这一结果与ESTF、X3D、ACTION-Net和C3D相当或更好。这些实验结果验证了我们的MST在基于RGB的识别中能够取得良好效果。

当结合RGB帧和事件流时，我们可以发现，与单一模态版本相比，可以取得更好的结果。例如，比较表II和表III中报告的结果，C3D模型的top-1准确率可以提升至50.88，而它在事件和RGB模态上的准确率分别为50.52和49.94。TimeSformer将单模态从50.77/50.05（事件/RGB）提升到了top-1准确率的51.57。然而，并非所有的识别模型都能通过简单的连接融合方法得到提升。例如，原本只为基于事件的识别开发的ESTF模型，其结果从51.22/48.03（事件/RGB）下降到top-1准确率的49.93。我们的实验结果在RGB帧和事件流的融合下得到了提升，借助多模态瓶颈融合模块。具体而言，我们的结果在top-1和top-5准确率上分别提升至49.40和55.55。这些结果充分验证了我们提出的RGB-事件识别框架的有效性。

D. 敏感性分析

在本小节中，我们将首先分析模型中的关键组件，以检查它们对最终结果的贡献。然后，我们将对视频帧的数量、不同的脉冲神经元和能耗进行分析。

组件分析

我们提出的模型包含了记忆支持型Transformer（MST）、脉冲神经网络（SNN）、多模态瓶颈融合（MBF）模块等。我们将在HARDVS和PokerEvent数据集上分别报告它们的识别性能。如表IV所示，我们发现MST模块在PokerEvent和HARDVS数据集上的top-1准确率分别为52.14和48.17。SCNN模块在这两个指标上分别获得了37.61和49.02的成绩。值得注意的是，这两个模块是为单一模态处理设计的，换句话说，我们只将RGB帧/事件流输入到MST和SCNN模块中。当使用双模态时，总体结果可以提升至53.23和49.13，这充分证明了结合RGB帧和事件流进行模式识别的有效性。我们的结果可以通过多模态瓶颈融合（MBF）模块进一步增强，即在top-1和top-5指标上分别达到53.80和49.40。这一结果证明了MBF模块也对我们的最终识别性能做出了贡献。

视频帧数量分析

在我们的实现中，原始RGB帧被嵌入到特征表示中，并被分成多个片段来学习空间-时间特征。在此部分，我们将通过设置输入帧为2、4和8个片段来测试输入帧的影响。每个对应的片段分别包含8、4和2帧。我们发现，如果将此参数设置为4，可以获得更好的结果，即在top-1指标上分别为53.8、59.76和86.75。

不同脉冲神经元分析

脉冲神经元在SNN中扮演着重要角色，在本文中，我们测试了以下三种神经元，即IF[83]、LIF[84]和LIAF[70]。如图9右部所示，我们发现LIF神经元在PokerEvent数据集的事件流上比其他两种神经元取得了更好的结果，即37.61和64.31。

能耗分析

众所周知，SNN的能耗远低于相应的ANN[85,86]。因为在ANN中的每一项运算都涉及一个浮点（FP）乘法和一个FP加法（MAC），而SNN中的每一项运算由于二进制脉冲的存在，仅涉及一个FP加法，正如[86]中所述。我们知道，卷积层中ANN的操作数（MAC）可以定义为：

$\#OP_{ANN}=k_w\times k_h\times c_{in}\times h_{out}\times w_{out}\times c_{out}\quad(9)$

其中$k_w, k_h$是核的宽度和高度，$c_{in}, c_{out}$是特征图的输入和输出通道数，$h_{out}, w_{out}$是输出特征图的高度和宽度。

相应地，SNN的操作数为：

$\#OP_{SNN}=SpikeRate_l\times\#OP_{ANN}\quad(10)$

其中$SpikeRate_l$是层l在所有时间步上的所有神经元平均的脉冲数。如果我们假设脉冲率为1，即每个神经元仅激发一次，我们可以认为SNN和ANN的操作数相同。

为了给出更直观的解释，在本节中，我们将通过以下公式计算能源消耗（ECP），它可以反映相对于相应的ANN版本的改进（即，将脉冲神经元替换为广泛使用的激活函数ReLU）： $ECP_{SNN} = ECP_{ANN} * SpikeRate_l$ ，其中 $ECP_{SNN}$ 和 $ECP_{ANN}$ 分别表示SNN和ANN网络的第l层的能量成本。请注意，ANNs和SNNs的每项操作的能耗/操作是在遵循[86]的45nm CMOS技术中计算的。统计数据显示，ANN和SNN中的每一项操作大约消耗4.6pJ和0.9pJ[86,87]。

不同事件片段与CLIP分析

在本文中，我们将事件流分割成多个片段，并使用脉冲神经网络提取空间-时间特征。我们测试了不同的设置，以检查它们对最终结果的影响。如图8右部所示，当将事件流分割为10、15和20个片段时，top-1/top-5准确率分别为36.69/61.65、32.25/61.00和37.61/64.31。在MST中，通过设置不同的片段数量，我们获得了不同的结果。可以看到，当片段数量为2、4和8时，top-1准确率分别为53.25、53.8和53.01，如图8左部所示。

瓶颈特征不同维度分析

SNN编码器之后，我们整合了一个瓶颈特征图进入解码阶段，以实现RGB帧和事件流之间的互动学习。在我们的实现中，该特征图的空间分辨率固定，但其维度可变。我们将其设为8、16和32，并报告了各自的结果，如图9左部所示。容易发现，top-1/top-5准确率分别为52.42/57.98、53.80/59.76和52.90/60.09。当维度为16时，top-1准确率最佳（53.80）；若使用32维瓶颈特征图，top-5准确率最佳（60.09）。

双Transformer基识别模型分析

如表I和表III所示，所提出的Spikingformer-MST在PokerEvent数据集上达到54.74（top-1），在HARDVS数据集上达到52.97|60.17（top-1|top-5）。这些结果与最近的SOTA模型相当甚至更好，充分验证了我们提出的SNN-Former框架在基于RGB-事件的模式识别中的有效性。值得注意的是，如表II所示，当仅使用事件数据进行识别时，Spikingformer在HARDVS数据集上达到51.87|58.67（top-1|top-5）。这劣于多模态版本，充分展示了融合RGB和事件流进行识别的有效性。

可视化分析

除了上述定量分析外，我们还提供了特征图、特征分布和预测结果的可视化。

特征图

如图11的前四列所示，我们给出了我们新提出的PokerEvent数据集和HARDVS数据集的事件流可视化。接下来的四列是从SCNN和DCN模块提取的特征图。我们可以发现，使用SNN编码器很好地捕捉了精细的纹理信息，而DCN特征更多关注高级特征表示。

对于我们在记忆支持型Transformer网络中学习到的特征，我们在图10中给出了可视化，以检查不同类别之间的距离。注意，此处选取了10个类别进行特征可视化。我们可以发现，我们提出的MST模块显著增强了ResNet特征。这些可视化充分验证了我们提出的模块在处理RGB帧和事件流方面的有效性。

识别结果

我们展示了两个数据集中四组RGB-事件样本及其对应的top-5识别结果的可视化。具体而言，图12来自PokerEvent数据集，而图13来自HARDVS数据集。从这些图中，我们可以发现RGB模态容易受到运动模糊的影响，而事件流很好地捕获了运动信息，并易于过滤静态背景信息。我们的识别结果也证明了所提出的新框架在基于RGB-事件的分类问题上表现良好。

局限性分析

尽管我们提出的RGB-事件对象识别框架在两个公共基准数据集上表现良好，并在识别性能和能耗之间取得了较好的平衡，但与其它最先进的模型相比，其整体性能仍然有限。受大规模预训练多模态模型的巨大成功的启发，我们认为通过在大规模RGB-Event数据集上自监督方式预训练我们提出的框架，可以进一步提高识别性能。因为当从DVS346事件相机输出时，RGB帧和事件流很好地对齐，双模态之间的空间和时间信息可用于构建学习目标。另一方面，我们新提出的方法是一个混合SNN-ANN识别框架。在未来的工作中，我们将考虑设计纯脉冲神经网络，以节省更多的能耗。

5.结论

在本文中，我们提出了一种创新的模式识别框架，有效地聚合了RGB帧和事件流。该框架主要包括四个模块：记忆支持型Transformer（MST）、脉冲神经网络（SNN）、多模态瓶颈融合（MBF）模块以及预测头。具体来说，MST以支持查询交互式学习的方式处理RGB帧，同时引入GRU网络以挖掘支持帧间的时间信息。SCNN作为一个混合SNN-ANN分支，能够直接处理原始事件流。实验结果表明，采用的SNN编码器相比于相应的ANN版本，在能量消耗上具有显著优势。此外，我们还引入了多模态瓶颈融合模块，以更有效地结合双模态特征。

鉴于RGB-事件识别数据集的稀缺性，我们还提出了一种新的大规模PokerEvent数据集，以填补数据缺口。我们在这两个大规模数据集上进行了广泛的实验，证明了我们的模型能够实现良好的识别性能。在未来的工作中，我们将考虑基于大规模自监督预训练进一步提升整体识别性能。探索纯脉冲神经网络也将是一个有趣的研究方向。