DVS-事件摄像机目标检测中的循环视觉变换

weixin_48823971

已于 2023-10-19 11:24:10 修改

阅读量1.2k

点赞数 2

文章标签：目标检测目标跟踪人工智能

于 2023-10-17 20:56:50 首次发布

本文链接：https://blog.csdn.net/weixin_48823971/article/details/133893181

版权

Abstract

我们提出了循环视觉转换器（RVTs），这是使用事件相机进行物体检测的新型骨干。事件摄像机在高动态范围内提供亚毫秒级延迟的视觉信息，并对运动模糊具有很强的鲁棒性。这些独特的特性为时间紧迫的场景中的低延迟目标检测和跟踪提供了巨大的潜力。基于事件的视觉的先前工作已经实现了出色的检测性能，但是以大量的推理时间为代价，通常超过40毫秒。通过重新审视递归视觉主干的高级设计，我们将推理时间减少了6倍，同时保持了相似的性能。为了实现这一点，我们探索了一种多阶段设计，在每个阶段利用三个关键概念：首先，卷积先验可以被视为条件位置嵌入。第二，空间特征交互的局部和扩张的全局自我注意。第三，递归时态特征聚合以最小化延迟，同时保留时态信息。rvt可以从头开始训练，以在基于事件的对象检测方面达到最先进的性能——在第一代汽车数据集上实现47.2%的地图。同时，rvt提供快速推理（在T4 GPU上<12 ms）和有利的参数效率（比现有技术少5倍）。我们的研究为有效的设计选择带来了新的见解，这对于超越基于事件的愿景的研究来说是富有成效的。

1、Introduction

时间对物体探测很重要。在30毫秒内，人类可以跑0.3米，公共道路上的汽车可以跑1米，火车可以行驶2米以上。然而，在这段时间里，普通相机只能捕捉到一帧。

基于帧的传感器必须在延迟和带宽之间取得平衡。给定固定带宽，基于帧的相机必须权衡相机分辨率和帧速率。然而，在高度动态的场景中，降低分辨率或帧速率可能会以丢失基本场景细节为代价，并且在汽车等安全关键场景中，这甚至可能导致死亡。

近年来，事件摄像机已经成为提供不同权衡的替代传感器。它们不是平衡带宽要求和感知延迟，而是以亚毫秒级延迟提供视觉信息，但牺牲了绝对强度信息。事件摄像机不是捕捉强度图像，而是在强度发生时测量强度变化。这导致了一系列事件，这些事件编码了亮度变化的时间、位置和极性[14]。事件摄像机的主要优点是它们的亚毫秒延迟、非常高的动态范围（>120 dB）、对运动模糊的强鲁棒性以及以连续方式异步提供事件的能力。

在这项工作中，我们旨在利用事件摄像机的这些突出特性在时间关键的场景中进行对象检测。因此，我们的目标是设计一种在保持高性能的同时尽可能减少处理延迟的方法。这是具有挑战性的，因为事件相机异步触发像素空间和时间分布的二进制事件。因此，我们需要开发能够连续关联时空域中的特征，同时满足严格延迟要求的检测算法。

最近的工作表明，动态图形神经网络（GNNs）和稀疏神经网络理论上可以实现基于事件的对象检测的低延迟推理。然而，为了在实际场景中实现这一点，它们要么需要专门的硬件，要么需要提高它们的检测性能。

另一种研究思路是从传统的密集神经网络设计的角度来解决这个问题。这些方法在基于事件的对象检测方面表现出令人印象深刻的性能，尤其是在其架构中使用时间递归时。然而，这些方法的处理延迟仍然超过40毫秒，因此不能充分利用事件摄像机的低延迟方面。这就提出了一个问题：我们如何在不需要专门硬件的情况下实现高精度和高效率？

我们注意到，常见的设计选择会在性能和计算之间产生次优的权衡。例如，先前的工作在其特征提取阶段广泛使用昂贵的卷积LSTM（Conv-LSTM）单元或依赖于诸如VGG架构的重主干。相反，稀疏神经网络难以对特征的全局混合进行建模，这对于正确定位和分类场景中的大型对象至关重要。

为了实现我们的主要目标，我们从根本上重新审视了基于事件的目标检测的视觉主干的设计。特别是，我们从传统的基于帧的对象检测的神经网络设计中获得灵感，并将它们与在基于事件的视觉文献中证明成功的想法相结合。我们的研究特意关注对象检测主干的宏设计，以识别GPU上高性能和快速推理的关键部分。由此产生的神经网络基于重复四次的单个块，以形成可与现成的检测框架一起使用的多级分层主干。

我们确定了三个关键部分，它们能够在检测性能和推理时间之间实现出色的权衡。首先，我们发现交错的局部和全局自我注意[50]非常适合混合局部和全局特征，同时提供输入分辨率的线性复杂性。第二，当在简单卷积之前进行简单卷积时，这种注意力机制是最有效的，该卷积也从前一阶段对空间分辨率进行下采样。这种卷积有效地提供了关于像素阵列的网格结构的强先验，并且还充当transformer层的条件位置嵌入[9]。第三，时间递归对于实现事件的强检测性能是至关重要的。与之前的工作不同，我们发现Conv-LSTM细胞可以被单独作用于每个特征的普通LSTM细胞[18]所取代1。通过这样做，我们大大减少了参数的数量和延迟，但也略微提高了整体性能。与最先进的方法相比，我们的完整框架实现了有竞争力的性能和更高的效率。具体来说，与现有技术相比，我们将参数计数（从100米减少到18.5米）和推理时间（从72毫秒减少到12毫秒）减少了6倍[26]。同时，我们从零开始训练我们的网络，表明这些好处并不来源于大规模的预训练。

我们的论文可以总结如下：（1）我们重新检查了基于事件的目标检测管道中的主要设计选择，并揭示了基于事件的目标检测中高性能的一组关键使能因素。（2）我们提出了一种简单的、可组合的舞台设计，它以紧凑的方式统一了关键的构建模块。我们构建了一个4级分层主干网，它速度快、重量轻，并且仍然提供可与迄今为止报道的最佳性能相媲美的性能。（3）我们在Gen1检测数据集[11]上实现了47.2%mAP的最先进的目标检测性能，在1 Mpx检测数据集[38]上实现了极具竞争力的47.4%mAP，同时从头开始训练所提出的架构。此外，我们还提供了对有助于这些结果的有效数据增强技术的见解。

2. Related Work

2.1.事件摄像机的目标检测

事件摄像机文献中的目标检测可以大致分为三个新兴的研究方向。最近的研究方向探索了图形神经网络来动态构建时空图。通过对事件进行子采样并找到时空上接近的现有节点来建立新的节点和节点边。主要的挑战是设计这样的结构，信息可以在时空体积中传播很远的距离。例如，当大型物体相对于相机缓慢移动时，这是相关的。此外，积极的事件子采样可以导致潜在的关键信息的删除，但通常是保持低延迟推理所必需的。

第二个研究方向是采用脉冲神经网络（SNNs），在网络内稀疏地传播信息。SNNs与密集递归神经网络（RNNs）密切相关，因为每个尖峰神经元都有一个随时间传播的内部状态。与RNNs不同，SNNs中的神经元只在达到阈值时发出尖峰信号。这种脉冲生成机制是不可微的，这导致优化这些网络的实质性困难。一种解决方法是避免上述阈值，而是在整个感受野传播特征。这种机制的缺点是稀疏处理特性在网络的深层中丢失。总的来说，在达到有竞争力的性能之前，SNNs的设计和训练仍然需要基本的调查。

第三个研究方向涉及探索使用事件摄像机进行目标检测的密集神经网络。第一步是创建一个密集张量（事件表示），它能够与卷积等密集运算兼容。早期工作直接使用从事件的短时间窗口生成的单个事件表示来推断检测。这些方法丢弃来自所考虑的时间窗口之外的相关信息，使得检测缓慢移动的物体变得困难或不可能。后续工作通过整合递归神经网络层[26，38]解决了这一问题，这极大地提高了检测性能。我们遵循这条工作路线，但修改了占主导地位的架构选择，以构建一个快速、轻量级和高性能的规范框架。

2.2.时空数据视觉转换器

NLP中基于注意力的模型[52]的成功激发了计算机视觉中基于transformer的架构的探索。基于注意力的模型最近也在视频分类中被探索，其中模型被直接应用于一组帧。虽然这些方法在时空建模方面显示出有希望的结果，但它们针对存储的视频数据的离线处理进行了优化。

在基于事件的视觉中，基于注意力的组件已经在分类和图像重建以及单眼深度估计中找到了应用，但是它们在物体检测中的使用还有待研究。

3. Method

我们的对象检测方法旨在按顺序处理到达的事件流。传入的事件首先被处理成表示空间和时间中事件的张量。在每个时间步长中，我们的网络将新的事件表示以及递归神经网络层的先前状态作为输入。在每次通过主干之后，RNNs的输出被用作检测框架的输入。以下部分详细介绍了这些步骤中的每一个。图2示出了RVT架构的概述。

图 2.我们的多级循环主干的展开计算图概述。事件在用作第一阶段的输入之前被处理为张量表示。每个阶段还重用前一个时间步的 LSTM 状态（c：单元，h：隐藏）。最后，检测框架从第二阶段开始与骨干网连接。具体来说，LSTM 的隐藏状态用作检测框架的特征。

事件处理当发生显著的日志亮度变化时，事件摄像机的每个像素可以独立地触发事件。根据亮度变化的符号，事件可以是正的或负的。我们将极性为pk∈{0，1}的事件表征为在时间tk发生在像素（xk，yk，tk，pk）处的元组ek=（xk，yk，tk）。现代事件摄像机每秒可以产生数千万个事件，这使得传统处理单元无法进行逐个事件的处理。

在这项工作中，我们选择了一个非常简单的预处理步骤，以实现与卷积神经网络层的兼容性，正如我们将在后面的第二节中展示的那样。4.2，是我们模型性能的重要贡献者。

我们的预处理步骤从创建4维张量E开始。第一维由两个分量组成，代表极性。第二维有T个分量，并且与时间的T个离散化步长相关联。第三和第四维表示事件摄像机的高度和宽度。我们按以下方式处理持续时间[ta，tb]内的事件集E：

换句话说，我们创建T个2通道帧，其中每个像素包含T个时间帧之一内的正或负事件的数量。作为最后一步，我们展平极性和时间维度，以检索具有形状（2T，H，W）的三维张量，从而直接实现与2D卷积的兼容性。我们用字节张量来实现所提出的算法，以节省内存和带宽。其他更复杂的表示是可能的，但它们的彻底评估不是我们的重点。

3.1.混合时空特征

利用事件相机进行目标检测的主要困难在于，在任何给定的时间，神经网络应该能够有效地（1）在像素空间中提取局部和全局任务相关的特征，因为目标可以覆盖非常小的区域或视野的大部分；（2）从最近的事件（例如，移动边缘）以及几秒钟前的事件中提取特征。这是必要的，因为一些物体相对于相机移动缓慢，因此随着时间的推移，它们产生的事件很少。这些观察促使我们研究用于空间特征提取的transformer层和用于有效时间特征提取的递归神经网络。图3示出了单个级的组件。

空间特征提取 空间特征提取阶段应该结合关于像素在计算图中尽可能早地排列在2D网格中的事实的先验。我们通过在输入特征上使用具有重叠核的卷积来实现这一点，该卷积同时对来自前一阶段的输入或特征进行空间下采样。这种卷积还赋予我们的模型一个条件位置嵌入[9]，这样我们就不需要绝对[12，52]或相对[32]位置嵌入。我们在秒内的消融研究。4.2显示了重叠内核导致检测性能的实质性提升。

在随后的步骤中，通过多轴自我注意来转换产生的特征。我们快速总结了这些步骤，但请参考Tu et。al[50]的详细解释。多轴注意由使用自我注意的两个阶段组成。第一阶段执行局部特征交互，而第二阶段支持扩展的全局特征混合。更具体地说，特征首先被局部分组到不重叠的窗口中：设X∈RH × W × C为输入特征张量。我们将张量重塑为一个形状（H P × W P，P × P，C），其中P × P是应用多头自我注意[52]的窗口大小。该块注意（图3中的块SA）用于模拟局部交互。下一步，理想情况下，我们能够全局提取特征。实现这一点的一个简单方法是在整个要素图上应用自我关注。不幸的是，全局自我注意在特征数量上具有二次复杂性。相反，我们使用网格注意力（图3中的Grid-SA）。网格注意使用G × G均匀网格将要素贴图划分为形状为（G × G，H G × W G，C）的网格。得到的窗口的大小为H G × W G。然后对这些窗口应用自我注意，这对应于特征的全局扩展混合。

在Sec的消融研究中，我们将替代设计作为我们架构的一部分进行研究。4.2.

时间特征提取 我们选择在阶段结束时使用LSTM[18]单元进行时间特征聚合。与之前的工作不同[26，38]，我们发现时间和空间特征聚合可以完全分离。这意味着我们使用普通的LSTM单元，使得LSTM的状态不会相互影响。通过避免Conv-LSTM单元[44]，我们可以大大降低计算复杂性和参数计数。即。与原始LSTM单元相比，核大小为k × k且步幅为1的Conv-LSTM需要k2的参数和计算数量。我们在实验Sec中考察了这一方面。4.2.

模型细节 我们在每个注意力和MLP模块之前应用LayerNorm[24]，在每个模块之后应用LayerScale[49]，并在每个模块之后添加一个剩余连接。我们发现LayerScale支持更大范围的学习率。

3.2. Hierarchical Multi-Stage Design（分层多阶段设计）

我们将多个RVT块组合在一起，形成一个多级分层主干。总体架构如图2所示。

首先，事件的局部时间切片被处理成2D张量格式，如本节开头所述。随后，每个阶段将先前的特征作为输入，并可选地使用来自上一个时间步长的LSTM状态来计算下一阶段的特征。通过保存下一个时间步长的LSTM状态，每个再当前阶段可以保留整个特征图的时间信息。

我们遵循先前的工作，并使用从第二阶段到第四阶段的特征作为对象检测框架。为此，我们将LSTMs的隐藏状态重塑为2D特征图。

4. Experiments

我们在第一代[11]和第一代Mpx[38]事件相机数据集上进行消融和评估我们的模型。我们在两个数据集上训练我们模型的三个变体：基本模型RVT-B及其小变体RVT-S和RVT-T模型的参数详细信息显示在Table1中.

4.1. Setup

实现细节 我们随机初始化所有层，除了LayerScale，它为每个模块初始化为1e-5。我们的模型使用ADAM优化器[21]以混合精度训练400k次迭代，使用一个周期学习速率计划[46]，从最大学习速率线性衰减。我们使用混合批处理策略，对批处理的一半样本应用时间反向传播（BPTT），对另一半样本应用截断BPTT（TBPTT）。关于这种配料策略的更多细节可以在补充材料中找到。我们的数据扩充包括随机水平翻转、放大和缩小。有关数据扩充的更多详细信息，请参见第节。4.2和补充材料。为了构造事件表示，我们考虑将50 ms的时间窗离散成T=10个箱。最后，我们使用YOLOX框架[15]，它包括IOU损失、类别损失和回归损失。对于每个优化步骤，这些损失在批次和序列长度上被平均。

为了与之前在Gen1数据集上的工作进行比较，我们用8的批量大小、21的序列长度和2e-4的学习率来训练我们的模型。在单个A100 GPU上进行培训大约需要2天时间。

在1 Mpx数据集上，我们以24的批量大小、5的序列长度和3.5 e-4的学习速率进行训练。在两台A100 GPU上进行培训大约需要3天时间。

数据集 第一代汽车检测数据集[11]由39小时的事件摄像机记录组成，分辨率为304 × 240。Gen1数据集总共包含228k辆汽车和28k辆行人边界框，频率为1、2或4 Hz。我们遵循先前工作[26，38]的评估协议，移除边长小于10像素、对角线小于30像素的边界框。

1 MPx数据集[38]也以驾驶场景为特色，但在几个月的白天和夜晚以720 × 1280的更高分辨率提供记录。它由大约15个小时的事件数据组成，以30或60 Hz的频率标记，总共有2500万个边界框标签，用于三个类别（汽车、行人和两轮车）。我们遵循先前工作的评估协议[26，38]。也就是说，我们移除边长小于20像素、对角线小于60像素的边界框，并将输入分辨率减半至nHD分辨率（640 × 360）。我们在图4中提供了该数据集的定性示例以及我们的基本模型的预测。

对于这两个数据集，平均精度（mAP）是我们考虑的主要指标[29]。

4.2. Ablation Studies

本节研究了对建议模型的最终性能有影响的两个主要因素。首先，我们研究了所提出的主干的关键组件和设计选择。其次，我们研究了与我们的顺序问题设置兼容的不同数据扩充技术的影响。

除非另有说明，消融研究是在400k次迭代后使用性能最佳的模型在Gen1验证集上进行的。为了减少训练时间，我们使用序列长度为11而不是21的BPTT。

4.2.1 Model Components

空间交互 在Tab2中研究了不同的空间聚合技术。为了公平比较，我们保持LSTM和卷积下采样层相同，只交换注意力和MLP模块。我们将多轴注意力与ConvNext块[33]和Swin transformer块[32]进行了比较。ConvNext是一种卷积神经网络架构，在包括对象检测在内的广泛任务中，它表现出了与基于transformer的模型竞争的性能。我们使用最初建议的默认内核大小7 × 7，并在每个阶段放置三个ConvNeXt块，以近似匹配参考模型的参数数量。相反，Swin是一个基于注意力的模型，它在通过循环移动相互作用的窗口中应用局部自我注意力。

我们发现，我们的Swin变体比ConvNext变体实现了更好的性能，然而，在Gen1和1 Mpx数据集上，两者都优于多轴自我关注[50]。这个实验表明，每个阶段（多轴）的全局相互作用有利于纯粹的局部相互作用（Swin，ConvNext）。

卷积下采样 原始视觉transformer[12]架构不执行与卷积层的局部特征交互。一些流行的分层对应物也选择在没有重叠内核的情况下应用下采样特征[8，32]。在选项卡中。3、我们在输入层（补丁嵌入）和特征下采样阶段比较了重叠和非重叠卷积核。虽然非重叠卷积减少了参数的数量，但它们会导致性能大幅下降。因此，我们在网络的所有阶段都选择重叠内核。

具有卷积的LSTM 先前使用事件摄像机进行对象检测的最先进方法严重依赖于卷积LSTM单元[26，38]。我们重新审视了这一设计选择，并用普通LSTM细胞和深度可分离的Conv-LSTM变体进行了实验[39]。在应用逐点（1 × 1）卷积之前，深度可分Conv-LSTM首先对输入和隐藏状态应用深度可分卷积。我们在选项卡中的结果。4表明，普通LSTM细胞在我们的模型中是足够的，甚至优于两种变化。这在某种程度上是令人惊讶的，因为这两个变体都是普通LSTM的严格超集。基于这些观察，我们决定使用普通的LSTM细胞。

LSTM放置 在这个消融术中，我们研究了仅在一个阶段子集使用时间复发或根本不使用时间复发的影响。对于所有比较，我们保持模型完全相同，但在每个时间步长的选定阶段重置LSTMs的状态。这样，我们可以模拟没有重复层，同时在比较中保持参数数量不变。

Tab5的结果表明，完全不使用重现会导致检测性能的急剧下降。从第四阶段开始，在每个阶段启用LSTMs，可以持续提高性能。令人惊讶的是，我们发现在第一阶段增加一个LSTM也会导致改进，尽管mAP的增加并不大。总的来说，这个实验表明，检测框架受益于已经用时间信息增强的特征。根据我们的观察，我们决定将LSTM也保留在第一阶段。

4.2.2 Data Augmentation

虽然数据扩充与模型本身没有直接关系，但它会极大地影响最终结果，我们将在下面说明这一点。在这里，我们研究了三种适用于时空数据上的对象检测的数据增强技术：随机（1）水平翻转，（2）放大，和（3）缩小。

放大增强在BPTT序列的最后时间步长（即在训练期间）随机选择包含至少一个完整边界框的作物。然后，在将裁剪重新缩放到默认分辨率之前，将此裁剪应用于序列的其余部分。这个过程确保我们至少有一个标签来计算损失函数，同时在训练期间保持相同的分辨率。

Table7显示，如果不应用数据扩充，我们的模型性能很差。总的来说，我们发现数据扩充不仅在Gen1序列上，而且在1 Mpx数据集上对对抗过度拟合都很重要。最有效的增强是放大，其次是缩小和水平翻转。基于这些结果，我们决定应用所有的数据扩充技术。我们在补充材料中报告了特定的超参数。

4.3. Benchmark Comparisons

在本节中，我们将我们提出的神经网络架构与之前在Gen1[11]和1 Mpx数据集[38]上的工作进行了比较，并在Tab中总结了结果。6.我们训练了三个模型，一个基本模型（RVT-B）有大约1850万个参数，一个小变量（RVT-S）有990万个参数，一个小模型（RVT-T）有440万个参数，通过调整每个阶段的通道维度。它们的体系结构超参数在选项卡中概述。1.为了与以前的工作进行比较，我们根据模型在验证集上的最佳性能来选择模型，并在测试集上对其进行评估。

从Tab6我们可以得出多种结论。首先，我们观察到使用递归层的模型始终优于其他方法，无论是稀疏（GNNs，SNNs）还是没有递归层的密集前馈模型（Inception+SSD，RRC-Events，YOLOv3 Events），在两个数据集上的映射都超过10。一个明显的例外是MatrixLSTM[6]，它直接在输入端应用LSTM单元。相比之下，RED[38]和ASTMNet[26]仅在更深的层中使用递归层。

我们的基本模型在Gen1数据集上实现了47.2 mAP的最新性能，在1 Mpx数据集上实现了47.4 mAP的最新性能。ASTMNet声称在两个数据集上都有可比的结果，尽管代价是使用更大的主干和增加的推理时间。红色模型也报告了有利的结果，但与我们的模型相比，在Gen1上实现了7.2个低mAP，在1 Mpx数据集上实现了4.4个低mAP。最后，我们的小模型是我们比较中最小的。尽管如此，它在Gen1数据集上实现了比RED模型高4.1倍的mAP，同时使用了少5倍的参数。

Inference Time 我们还在批量大小为1的T4 GPU上计算了我们模型的推理时间。不幸的是，RED和ASTMNet都不是开源的，因此我们无法直接比较同一GPU模型上的推理时间。相反，我们使用作者提供的计时，他们在可比的GPU（例如Titan Xp）上进行计时实验。我们在Tab6中报告模型的计时结果。，并在Fig1中可视化它们。

为了与以前的工作进行比较，我们首先计算PyTorch渴望模式下的推理时间。在eager模式下，我们的基本模型在Gen1数据集（304 × 240分辨率）上实现了10.2毫秒（ms）的推理时间。这意味着与RED相比，延迟减少了6 ms，推理时间比ASTMNet低3倍以上。在1 Mpx数据集上，分辨率为640 × 360，我们的基本模型向前传递需要11.9毫秒，比RED快3倍，比ASTMNet快5倍以上。

即使在T4 GPU上，大部分推理时间也是框架开销。为了部分克服这一点，我们使用了PyTorch 2[37]的JIT编译特性torch.compile。作为Tab6显示，这几乎将RVT-B在1 Mpx数据集上的推断时间减半，并将Gen1数据集上的推断时间减少了2.7倍。正如所料，小型和微型模型从JIT编译中受益更多。例如，RVT-T在Gen1上向前传球只需要2.3毫秒，在1 Mpx上只需要3.5毫秒。在RTX 3090 GPU上，RVT-B在2.8毫秒内完成了1 Mpx数据集的正向传递，这表明如果功耗不是一个问题，低延迟推理的潜力。

5. Discussion and Limitations

我们使用一个非常简单的事件表示，它没有充分利用基于事件的数据的潜力。例如，我们在事件顺序上只有弱先验，因为我们直接用完全连接的层处理时间维度。最近的工作显示，通过在早期层中引入时间卷积，获得了实质性的收益[26]。事件数据的高效低级处理仍然是一个开放的研究问题，我们在这项工作中没有解决。

我们的方法目前只使用事件流来检测对象。帧产生互补信息，当适当合并时，将产生显著增强的检测性能。例如，在图4（d）中，我们可以看到，当没有事件可用时，我们的模型可以在一段时间内保留信息。尽管如此，网络的内存会褪色，检测性能会下降。即使在低帧速率下，高质量的帧也可以提供缺失的补充信息。因此，我们相信在合适的数据集上对我们的方法进行多模态扩展[17，25]是一个有希望的下一步。

6. Conclusion

我们介绍了一种新颖的主干架构，用于事件摄像机的对象检测。该体系结构由一个阶段设计组成，该阶段设计被重复应用以创建一个多阶段分层神经网络。每个阶段紧凑地结合了卷积先验、局部和稀疏全局注意力以及循环特征聚合。我们的实验强调，递归视觉转换器可以从头开始训练，以达到事件摄像机在对象检测中的最先进性能。由此产生的规范阶段设计与现有的检测框架直接兼容，并为在传统硬件上使用事件摄像机进行低延迟对象检测铺平了道路。尽管如此，我们希望这项工作也能激发未来神经形态系统的新设计。