标题:ExACT:基于事件的动作识别及更多应用中的语言引导概念推理和不确定性估计
源码链接: ExACT (vlislab22.github.io)https://vlislab22.github.io/ExACT/
发表:CVPR-2024
目录
摘要
事件相机最近已被证明对于实际的视觉任务(如动作识别)非常有益,这得益于它们的高时间分辨率、功率效率和减少的隐私担忧。然而,目前的研究受到以下两方面的阻碍:1) 由于事件持续时间较长,动态动作具有复杂且模糊的语义,导致处理事件变得困难;2) 事件帧表示中使用固定堆栈导致的冗余动作描述。我们发现语言自然传达了丰富的语义信息,使得它在减少语义不确定性方面极为出色。鉴于这一点,我们提出了ExACT,这是一种全新的方法,首次从跨模态概念化的角度解决了基于事件的动作识别问题。我们的ExACT带来了两项技术贡献。首先,我们提出了一种自适应细粒度事件(AFE)表示法,用于在保留动态事件的同时自适应地过滤出静态对象的重复事件。这巧妙地提高了ExACT的性能,而无需额外的计算成本。然后,我们提出了一个基于概念推理的不确定性估计模块,该模块模拟识别过程以丰富语义表示。特别是,概念推理基于动作语义构建时间关系,而不确定性估计基于分布表示来处理动作的语义不确定性。实验表明,我们的ExACT在PAF、HARDVS和我们的SeAct数据集上分别实现了94.83%(+2.23%)、90.10%(+37.47%)和67.24%的卓越识别准确率。
1.引言
动作识别是一项重要的视觉任务,具有许多应用,如机器人导航[33, 43]和异常人类行为识别[25, 35]。已经提出了许多基于帧的学习方法,这些方法带来了令人印象深刻的性能提升[24, 43]。然而,这些方法可能不是功率受限场景(例如,监控[3, 24])的理想解决方案。RGB摄像头也会因为环境偏差(如运动模糊和光照变化)而性能下降[36]。此外,基于帧的摄像头由于直接捕捉用户的外观而引发了相当大的隐私担忧。
最近,受生物启发的事件相机正在变得流行[1, 14, 27],它们忽略背景并仅记录移动物体。这导致了感知效率和快速运动和光照变化的韧性,同时功耗较低。此外,事件相机主要反映物体的边缘,这减轻了用户的隐私担忧,如肤色和性别。由于这些优势,基于事件的动作识别为现实世界的应用提供了更实用的解决方案。这激发了在基于事件的动作识别领域的研究努力[14, 27, 36, 39, 49, 54, 55],并取得了合理的性能。
事件相机(Event Camera,有时也称为动态视觉传感器Dynamic Vision Sensor, DVS)的工作原理及其数据采集方式,以便您能更全面地掌握这个概念。
事件相机与传统相机不同,它并不以固定频率捕捉整个场景的图像,而是仅当场景中的像素亮度发生变化时,即时(通常在微秒级别)记录这些变化。每个“事件”实际上是一个非常简化的数据点,包含了发生变化的时间戳、像素位置以及亮度变化的方向(增加或减少,即正向事件或负向事件)。因此,事件相机能够非常高效地对场景中的运动进行编码,尤其是在高动态范围或快速运动的场景下。
当提到“将一部分连续的事件打包成一个帧”,实际上是在处理和分析这些原始事件数据时的一种策略,而非事件相机本身的操作。由于事件相机输出的是异步事件流,没有固定的帧率,研究者和开发者可能会根据需要定义一个时间窗口或者事件数量阈值,将在这个时间窗口内或达到指定数量的所有事件“打包”在一起进行处理,这样的“包”可以被视作一个“帧”,尽管它与传统相机的帧有本质区别。这个过程有时被称为“时间表面”(time surface)构建或“事件累积”(event accumulation),目的是为了便于后续的视觉处理算法或网络能以类似于处理图像帧的方式处理这些事件数据。
然而,上述方法存在两个缺陷:1) 它们识别大量不同人类动作的能力有限,如表1所示,在包含300个类别的HARDVS数据集上的实验证明了这一点。这可能是因为动态动作和持续时间较长(大约5秒[48])导致的复杂和模糊语义,与持续时间较短(大约0.1秒[48])且语义有限的物体相比。例如,如图1(a)所示,“蜻蜓”与“坐下”的区别。2) 缺乏定制的事件表示,因为原始事件被直接堆叠成具有固定堆栈的事件帧,导致描述相同动作的事件帧中出现重叠或模糊的边缘信息,见图3和图1(b)。
图1。(a)与静止物体(如“蜻蜓”)的持续时间短(0.1s)和语义有限不同,动态动作(如“坐下”)的持续时间长(5s),语义模糊和复杂。(b)与以往的事件表示相比,将固定计数的事件叠加,自适应过滤掉记录静止动作的事件,同时保留动态动作;(c)我们引入语言引导来刺激识别过程,特别关注概念推理时间关系和估计不确定语义。
最近,视觉-语言模型(VLMs)[6, 11, 37]的进步开创了跨文本和视觉模态融入语义概念的思想,旨在模拟人类的概念化和推理过程[19, 41, 42]。关键的见解是,语言自然传达了固有的语义丰富性,这对于建模语义不确定性和建立复杂的语义关系是有益的。受此启发,我们将语言作为基于事件的动作识别的指导。作为首次探索,研究难点包括:1) 如何表示事件以详细描绘动态动作而不产生冗余的事件帧?2) 如何将文本嵌入与事件嵌入相结合,以帮助推理动态动作的复杂语义并减少语义不确定性?
为此,我们提出了一种新颖的ExACT框架,从跨模态概念推理的角度解决基于事件的动作识别问题,如图1(b)和(c)所示。为了应对第一个挑战,我们受到图3中观察到的“重叠动作区域”的启发,提出了一种自适应精细事件(AFE)表示(第3.1节)。这些区域表明在一个帧中事件堆叠过多,这是之前基于固定堆栈的帧表示方法所不可避免的。不同的是,我们的AFE递归地并离线地基于重叠区域找到不同动作的分割线。它消除了重复事件并保留了动态动作,从而在不增加额外计算成本的情况下提高了模型性能(表2)。
对于第二个挑战,我们提出了一个新颖的概念推理不确定性估计(CRUE)模块(第3.3节),以模拟人类的动作识别过程。具体来说,CRUE首先利用文本嵌入来推理每个帧的语义,从而建立事件帧的时间关系,并获得融合的事件嵌入。然后,CRUE将事件和文本嵌入从离散表示转换为分布表示,其中分布方差量化语义不确定性。通过这种方式,我们提出的CRUE模块建立了一个语义丰富且不确定性感知的嵌入空间,以增强模型性能(表3)。
同时,由于现有数据集仅提供类别级别的标签,我们提出了SeAct数据集,包含58个动作类别,具有语义丰富的字幕级别标签。我们的数据集是第一个用于事件-文本动作识别(准确率为67.24%)的数据集。我们还进行了广泛的实验,表明我们的ExACT框架在公开数据集上显著优于之前的方法,例如,[14, 26],在PAF数据集上准确率达到94.83%(+2.23%),在HARDVS数据集上更是达到了90.10%的准确率(+37.47%)。除了动作识别之外,我们的ExACT还可以灵活地应用于事件-文本检索任务。
总结来说,我们的主要贡献有:(I)我们提出了ExACT——第一个利用语言指导进行基于事件的动作识别的框架;(II)我们提出了CRUE模块来模拟人类的动作识别过程,为动作识别创建了一个丰富且不确定性感知的跨模态嵌入空间。同时,我们的AFE表示法自适应地过滤了冗余事件,为动态动作提供了有效的表示。(III)我们引入了带有详细文本字幕的SeAct数据集,用于评估由多个具有不同语义的子动作组成的动作的识别能力。广泛的实验表明,我们的ExACT框架在我们的SeAct数据集和公开数据集上都表现出优越性。
2. 相关工作
事件驱动的动作识别方法可以分为仅基于事件和事件-其他模态两大类。在仅基于事件的框架中,最广泛使用的技术是将事件流堆叠成紧凑的帧,随后利用现成的卷积神经网络(CNNs)[14]或视觉变换器(ViTs)[39, 55]进行有效的特征提取。由于CNN/ViT骨干网络的出色性能,这种方法目前展现出最先进的表现。同时,鉴于事件数据的异步特性,研究界探索了与事件数据独特结构更相适应的、受生物启发的脉冲神经网络(SNNs)[27]和图卷积网络(GCNs)[54]的空间时间能力的应用。然而,这些方法因性能次优及受限的适应性(部分归因于SNNs对特殊硬件的需求)而展现出局限性。
与此同时,也有人尝试将事件数据与其他模态相结合。例如,将RGB数据[49]中丰富的颜色和纹理信息与事件信息结合,或利用光流[36]中的附加运动知识。总的来说,这些方法大多依赖于密集的连续事件帧,不可避免地导致了动作重叠和语义不确定的冗余帧。为了表示事件以描绘详细的动态动作,提出了自适应事件帧采样(AFE)表示法,旨在自适应地采样事件帧而不引入额外的计算成本。
视觉-语言模型(VLMs)近期,大规模预训练的VLMs[6, 11]在多模态表征方面的应用引起了越来越多的兴趣。受此启发,一些开创性工作[7, 52, 58]研究了将VLMs的能力转移到事件模态上的潜力,从而重振了目标识别的最佳性能。此外,VLMs显著的零样本能力激发了研究人员探索事件-基于标签的[7]或零(少)样本应用[58],以此应对高质量事件数据集稀缺的问题。然而,先前的事件-文本方法侧重于识别具有有限语义的对象,未能识别记录长时间、复杂且语义模糊动作的事件。因此,我们的ExACT旨在从跨模态概念推理的角度增强基于事件的动作识别能力。
3. 提出的ExACT架构
概述。我们的ExACT框架概述如图2所示。ExACT的核心思想是引入语言作为指导,用于评估语义不确定性并为基于事件的动作识别建立语义关系。以下小节详细介绍了1)提出的自适应细粒度事件(AFE)表示(第3.1节);2)事件编码器和文本编码器(第3.2节);3)基于概念推理的不确定性估计(CRUE)模块(第3.3节)。此外,在第3.5节中,我们介绍了我们提出的富含语义的基于事件的动作识别(SeAct)数据集,作为首个用于事件-文本动作识别的数据集。
图2. 我们提出的ExACT框架的整体架构。该框架包含四个组成部分:1. AFE表示法递归地消除重复事件,并生成描绘动态动作的事件帧(第3.1节);2. 事件编码器与3. 文本编码器分别负责事件和文本的嵌入(第3.2节);4. CRUE模块通过模拟动作识别过程来建立子动作之间的复杂语义关系,并减少语义不确定性(第3.3节)。
3.1 AFE 表示法
大多数基于事件的动作识别模型[14, 39, 55]主要依赖于事件帧表示[31, 56],这与现成的CNN/ViT主干兼容。对于这些模型,事件流被空间整合成固定事件数量或持续时间的帧[57],如图1(b)所示。然而,事件数据的高时间分辨率不可避免地导致大量展示相同静止物体的重复事件帧(参见图3(a)中的蓝色圆圈)。因此,这种表示法难以描绘动态动作。为此,我们试图回答以下问题:能否在保留记录动态动作事件的同时,自适应地过滤掉静止物体的重复事件?
**图3.** (a) 与现有方法常常导致事件帧重复不同,我们的AFE表示形式能够根据观察到的重叠动作区域,自适应地过滤掉相同动作的重复事件;(b) AFE表示形式的示意图。
相应地,我们在图3(a)中可视化了之前的事件帧表示[57]。一个显著的观察是标记为红色方框的“重叠动作区域”,这是帧转换过程中的副产品,由于过多的事件堆叠,连续动作在此区域重叠。这个“重叠动作区域”成为不适当事件采样间隔的关键指示。基于这一点,我们提出了AFE表示法。
具体而言,为了根据“重叠动作区域”找到不同动作之间最合适的分界线,我们采用了经典的二分查找法,并通过高效的O(logn)算法复杂度实现了离线及递归操作。如图3(b)所示,搜索算法可视为在一个二叉树中寻找叶节点的过程。首先,我们将原始事件流(根节点)等分为两个子流
(节点)和
(节点),并生成它们相应的事件计数图像
和
。接着,我们对
与
进行相减以得到差异图。接下来,为了基于差异图衡量动作重叠的比例,我们定义了一个名为差分率R的因素,其表达式为:
这里,sum(.)和abs(.)函数分别代表事件计数和绝对值操作。直观上,R值高表明将记录两个不同动作的事件堆叠到同一帧中的概率高。在这种情况下,我们需要递归地划分事件子流。
对于递归算法,边界条件至关重要。在我们的案例中,如果差分率R高于最低采样阈值Δ,我们将重复上述分割过程,直到它低于Δ或子流的事件数量Nsub小于最小聚合事件数量Nmin。需要注意的是,超参数Nmin和Δ会根据不同数据集而变化。关于如何选择Nmin和Δ的更多讨论,请参考补充材料。经过上述M次递归的搜索过程后,我们最终获得了一系列细粒度的事件帧ITM,共包含T帧(所有叶节点)。
事件数据是一连串的信号,每个信号代表着某个像素亮度的瞬间变化。如果我们简单地把一定时间跨度内的所有事件打包成一个“帧”,可能会出现这样的情况:这个“帧”里的事件实际上包含了两个不同动作的事件,因为这两个动作恰好在这个时间段里都有事件产生。这就好比在拍摄快速交替的两个动作时,快门速度不够快,导致两个动作在一张照片中都模糊不清。
通过比较两个子事件流生成的事件计数图像的差异,来衡量这两个子流是否包含大量重叠的事件(可能属于不同动作)。如果R值高,说明这两个子流的差异大,即它们可能各自记录了不同的动作,但这些不同的动作在之前的处理中被错误地合并到了一起,形成了具有混淆事件的帧。
因此,当R值高时,表明当前的事件分组或帧划分方法可能导致了不同动作事件的混合,这不利于准确识别每个独立的动作。为了提高识别的精确度,就需要通过递归地细分事件流,尝试找出更佳的切割点,使得每个细分后的事件流尽可能只包含单一动作的事件,从而降低R值,提高事件数据的纯净度和动作识别的准确性。
3.2. 特征编码器
采用AFE表示法后,事件流被处理成一系列精细的时间事件帧。随后,利用来自预训练的EventText模型[58]中的事件编码器和文本编码器来建立一个统一的事件-文本嵌入空间。这一过程具体分为以下几个步骤:
事件编码器:如图2所示,该编码器接收空间尺寸为H×W的RGB事件帧∈ RH×W×3作为输入,其中i = 1, 2, ..., T代表事件帧的序号。它输出对应的事件嵌入
。对于T个事件帧,事件编码器逐一处理这些帧,总共执行T次操作,并最终生成事件的[CLS]嵌入向量
。这里,[CLS]嵌入通常用于汇总整个序列的关键信息。
文本编码器:它接受两种不同类型的文本提示作为输入:
1. 手工编写的文本提示:“一系列记录[动作类别]行为的照片。” 其中,[动作类别]代表具体的类别名称。编码之后,每个词被转换成Dp维的词嵌入,并组合形成最终的文本标记Ph。
2. 可学习的文本提示: Pl = [P1, P2, ..., Pn, PCLASS.],其中Pi (i = 1, 2, ..., nl)是一个随机初始化的Dp维参数;nl表示可学习文本提示的数量;PCLASS代表[类别]及句点符号的编码词嵌入,“.”表示连接操作。通过这种方式,文本编码器将手工编写的文本提示Ph和可学习的文本提示Pl分别转化为相应的文本嵌入和
。最终,通过平均
和
得到文本的[CLS]嵌入向量ft。
3.3. CRUE模块
先前基于事件的动作识别方法[14, 26]未能充分考虑以下两个方面:
1. 时间关系:与静止物体不同,动态动作随时间展开。事件数据中蕴含的时间信息对于理解动作的意义至关重要。例如,在图1中,“坐下”和“站起来”包含相似的子动作,但发生顺序相反,即“站立”→“蹲下”→“坐下”与“坐下”→“蹲下”→“站立”,这导致了不同的语义含义。
2. 语义不确定性:由多种子动作组成的行为比静止物体呈现更高的语义复杂性。“坐下”作为一个例子,包括“站立”、“蹲下”和“坐着”等子动作,每个子动作都有其特定意义。因此,仅使用任何单一子动作来表达“坐下”这一完整动作的含义是不够且不确定的。
受这两方面因素的启发,我们提出了CRUE模块,旨在通过概念推理融合和不确定性估计来模拟人类的动作识别过程。
概念推理融合:与简单平均融合事件帧的方法[14, 36, 39, 55]不同,提出的CRUE模块利用文本嵌入指导事件帧的融合。具体而言,如图4所示,给定事件[CLS]嵌入fe和文本[CLS]嵌入ft,使用两层多层感知机(MLP)网络进行维度投影。这样可以获得投影后的事件嵌入fp_e和文本嵌入fp_t。然后,我们将fp_e和fp_t相乘并接上softmax函数以生成概念推理权重。接下来,这些权重与原始的投影事件嵌入fp_e相乘,得到融合后的事件嵌入ffuse_e。直观上,概念推理权重作为基于事件帧时间序列产生的语义权重,用于指导帧的融合。
在前面AFE表示法部分,将不同子动作的事件打包成不同的帧,但是,在动作识别时需要一个动作的不同子动作组合才能更好的判断出动作类型。因此,使用概念推理融合来将属于相同动作的不同子动作的帧进行融合。
图4展示了提出的CRUE模块,该模块包含以下两部分:
1) 基于事件间时间关系的概念推理,用于事件帧的融合;
2) 利用分布表示对文本和事件嵌入中的子动作进行不确定性估计。
不确定性估计:语义不确定性指的是所获得的信息倾向于呈现多个目标的情况[19]。为了建模动作的语义不确定性,我们借鉴了在自然语言处理(NLP)领域[2, 8, 47]和计算机视觉(CV)领域[5, 41, 42]中应用的分布表示思想。与那些提取特征作为离散表示的方法不同,我们对事件和文本嵌入采用了概率分布编码器[19]。因此,通过概率分布的方差可以量化语义不确定性,进而更好地反映动作识别中的不确定性问题。
具体而言,如图4所示,融合后的事件[CLS]嵌入 ∈ RHe×We×Ne(把T个事件帧融合成一个事件帧了)在通道维度上均匀分割为
和
[19]。随后,
和
分别输入两个标准的自注意力模块[46]。接下来,我们可以预测出均值向量µe ∈ RHe×We×Ne和方差向量σe ∈ RHe×We×Ne。这里,µe和σe分别是多元高斯分布
的估计参数。我们对文本CLS嵌入ft执行相同的操作,以估计其对应的多元高斯分布
。总的来说,上述操作可以用以下公式概括:
其中i = e, t分别代表事件和文本嵌入;Att表示自注意力模块,[.]表示连接操作。
首先,通过自注意力机制(Att)分别从事件和文本的融合嵌入中估计出均值(µe 和 µt)与方差(σe² 和 σt²),从而为事件和文本嵌入构造出多元高斯分布。这意味着,每个嵌入不再被视为一个确定的点(在高维特征空间中的一个固定向量),而是一个概率分布(多元高斯分布),这个分布反映了嵌入的语义不确定性,这意味着,每个事件或文本不仅仅被一个确切的位置(均值)所描述,而且还包括了围绕这个中心位置的变异信息(通过协方差矩阵描述)。通过这样的分布表示,可以更灵活地捕捉和表达数据中的不确定性信息。
通过估计得到的分布表示Ni(µi, σ2_i),i = t, e,我们现在量化事件和文本嵌入的语义不确定性。然后,我们采用再参数化方法[23]来抽样任意离散表示,以确保平滑的反向传播。也就是说,我们首先从标准正态分布N(0, I)中抽样得到随机噪声δ,而不是直接从fi ∼ Ni(µi, σ2_i)中抽样,i = t, e。接着,我们通过获得抽样的离散嵌入,其中n = 1, 2, ...,N,N是一个超参数,表示抽样离散嵌入的数量。(关于N的更多讨论请参见第4.3节。)获得的
遵循估计的分布Ni,因此可用于估计语义不确定性。
量化语义不确定性,简单来说,就是指测量或评估文本或事件嵌入(即其在向量空间中的表示)在语义层面上的不确定性或模糊程度。
分布的宽度:如果一个词或事件的嵌入分布具有较大的方差(σ2_i较大),这可能意味着该嵌入在不同上下文中的意义变化较大,因而具有较高的语义不确定性。反之,较小的方差表明语义较为稳定和确定。
样本多样性:通过上述再参数化技巧抽取多个样本,通过多次采样,可以计算这些样本之间的差异(如样本间的距离、方差等),这些统计量直接量化了原始分布的变异性,也就是语义的不确定性。如果样本间差异大,说明原始嵌入对于不同的解释有较高的开放性,不确定性较高。
再参数化技巧的核心在于将采样过程设计为可微操作,从而允许梯度通过采样步骤直接流回网络的参数。传统上,直接从复杂的分布(如高斯分布)中采样,由于涉及到不可微的随机过程,会阻碍梯度在反向传播时的流动。通过引入独立于模型参数的随机噪声,并将其与参数化的均值和标准差结合,再参数化方法保证了采样过程的可微性,使得模型训练过程更加稳定和高效。
"通过引入独立于模型参数的随机噪声,并将其与参数化的均值和标准差结合",为什么这种方法保证了采样过程的可微性?
尝试用一个更具体的比喻来说明。
想象你要描绘一个人的身高分布。这个分布就好比是一个班级里所有学生的身高集合,它有一个大致的中心趋势(比如平均身高)和变化范围(有些学生高一些,有些矮一些)。
直接从分布采样:如果我们直接从这个身高分布中随机挑一个人来看他的身高,这个过程就像闭着眼睛从班里随机选一个学生问他的身高。每次你问到的学生身高可能都不一样,这是因为每个人的身高都有一定的随机性。但是,如果你想知道如何调整教学方法或营养计划来影响全班的平均身高,这种随机挑选的方式就很难直接告诉你应该怎样调整,因为你无法精确追踪到每个学生身高的背后原因。
再参数化技巧:现在,我们用再参数化的方式来理解。首先,我们明确班里学生的平均身高(均值)和身高变化范围(方差),这就是我们的“独门秘方”。接下来,我们不直接随机选学生,而是假设每个学生的身高可以看作是平均身高基础上的一个小波动。这个波动就像是一次轻微的身高变化,它虽然是随机的,但我们知道这个随机波动是按照一个已知的规则进行的,比如说是从一个标准的规则范围(正态分布)中产生的。
这样,当我们想通过改变教学或饮食来影响学生的平均身高时,就可以通过调整这个“独门秘方”(均值和方差)来观察效果,因为每次的随机波动(学生身高的随机变化)都是基于同一个已知规则进行的。即使每个学生身高本身带有不确定性,我们也能通过这个规则去理解和优化整体的身高分布,即模型的参数。
总结来说,再参数化技巧通过将不确定性(随机波动)与模型参数(均值和方差)的确定性调整分开处理,使得我们能够在保持采样随机性的同时,清晰地追踪和优化模型参数,让学习过程变得更加可控和可解释。
理解:直接从fi ∼ Ni(µi, σ2_i)中抽样太随机了(或者说,假设抽样以µi为基础,向左右扩展的程度的随机性太无迹可寻了);如果使用再参数化,从标准正态分布中抽样一个噪点δ,δ虽然代表不确定性(随机波动),但是他是基于正态分布的规则得到的(有迹可循),在
这种抽样方式中,δ代表不确定性(随机波动),均值和方差)代表确定性。
然而,上述随机抽样过程增加了训练的复杂性,特别是考虑到事件数据的空间稀疏性。为了加速模型收敛,我们引入了Smooth L1损失[15],计算标准化的CLS嵌入fi, i = t, e与抽样嵌入 i = t, e之间的差异:
其中n = 1, 2, ...,N,N是表示抽样离散嵌入数量的超参数,mean(.)和std(.)分别表示输入嵌入的均值和标准差。
此外,为了减少分布表示的语义不确定性,我们引入了正则化损失:
这里,sum(.)表示输入嵌入的总和,abs(.)表示绝对值操作。
值得注意的是,实验结果显示,模型收敛时最终的Lreg大于零。这表明模型并未退化为离散表示,因为方差大于零,表明分布表示的有效性。
3.4. 训练目标
为了建立一个用于动作识别的事件-文本联合表示空间,我们利用两种模态嵌入和
之间的对比损失
如下所示:
其中,是温度系数,B代表小批量数据的大小,b和
分别指小批量中的第b个和另一个不同的数据样本。我们在所有采样的事件嵌入
和文本嵌入
之间计算对比损失,(最小化同类样本的相似度表示,最大化不同类样本的相似度表示)。
最终,整个训练目标由对比损失、Smooth L1损失及正则化损失组成,并结合了不同比率的超参数:
其中,在考虑了它们数值范围后,我们将、
和
的默认值设为1。
3.5. SeAct 数据集
以往的事件动作数据集[1, 4, 34, 48]仅使用几个词来描述每个动作,这未能激发我们ExACT框架处理复杂语言信息的能力。为此,我们提出了首个富含语义的SeAct数据集,用于事件-文本动作识别,其中为每个动作提供了详细的描述级标签。SeAct数据集通过分辨率为346×260的DAVIS346事件相机采集。它包含四个主题下的58个动作,如图5所示。每个动作都附有一条由GPT-4[38]生成的不超过30词的动作描述,以丰富原始动作标签的语义空间。我们为每个类别分配了80%的数据用于训练,剩余20%用于测试(验证)。我们相信,SeAct数据集将成为评估事件-文本动作识别性能的更佳平台,并在未来激发更多相关研究。详情请参考补充材料中的数据集介绍。
4. 实验
4.1. 数据集与实验设置
数据集
本工作中,为了评估我们提出的模型,采用了四个数据集,包括PAF [34]、HARDVS [48]、DVS128 Gesture [1]以及我们新提出的SeAct数据集。PAF [34],也称为动作识别,是一个在室内录制的数据集,包含10个动作类别和450段记录。HARDVS [48]是最近发布的基于事件的动作识别数据集,目前拥有最大的动作类别数,即针对300个动作类别的107,646段记录。上述两个数据集的平均时长均为5秒,分辨率均为346×260 [48]。DVS128 Gesture [1]使用128×128分辨率的DVS128相机收集,分为11种手部和手臂手势。关于我们的SeAct数据集,请参见第3.5节的介绍。
实验设置
在AFE表示中,最低采样率Δ分别设为50%、40%和40%,而在PAF、HARDVS及我们的SeAct数据集上,最小聚合事件数量Nmin则分别选择为100,000、150,000和100,000。我们使用事件-图像-文本模型ECLIP [58]的事件编码器和文本编码器进行特征编码。基于超参数搜索,采样的离散嵌入数量N设定为5。初始学习率设为1e-5,采用Adam优化器 [22] 并设置权重衰减等于2e-4。使用CosineAnnealingLR [30] 学习率策略,最低学习率设为1e-6。针对PAF和SeAct数据集,我们的模型训练100个周期;而对于HARDVS数据集,则训练25个周期。更多实验设置细节,请参考补充材料。
4.2. 与当前最优方法的比较
如表1所示,我们提出的ExACT框架在PAF和HARDVS数据集上展现了卓越的性能。具体而言,与最先进(SOTA)结果相比,ExACT在包含10个类别PAF数据集上带来了+2.23%的性能提升。尤为显著的是,ExACT在拥有300个类别的HARDVS数据集上取得了令人瞩目的+37.47%的改进,这彰显了ExACT在分类复杂多样动作方面的出色潜力。此外,使用我们提出的SeAct数据集进行评估时,ExACT在涉及58种动态动作及其描述级标签的真实世界场景中达到了67.24%的Top-1准确率和75.00%的Top-5识别准确率。这些结果有力地证明了ExACT框架在动作识别任务中的有效性。
4.3. 消融实验研究
在本节中,我们对ExACT框架的关键组件、训练目标和重要超参数进行消融实验,以探究它们的有效性。除非另有说明,实验均在PAF数据集上进行。
AFE表示的有效性:表2显示,即使在较低的采样数量2816下,我们的AFE表示也能获得最高的94.83%准确率。这表明AFE表示通过滤除展示相同动作的重复帧,能够实现更好的性能。
CRUE模块与对比学习的比较:如表3所示,基线模型使用了广泛应用于先前方法中的对比学习损失进行训练[52, 58]。结果显示,基于概念推理的融合(CR)和结合不确定性估计(UE)的CR分别使准确率提高了+0.78%和+1.97%。这表明,CRUE模块通过基于时间关系的概念推理融合事件帧,并在训练期间估计动作语义的不确定性,增强了模型理解动作的能力,因此相比单纯使用对比学习,性能更优。
基于概念推理的融合(CR)与其他帧融合方法的比较:为了评估CR的有效性,我们将其与另外两种设计(即所有事件帧的求和与平均池化)进行比较,如表4所示。结果证明了我们提出的CR的有效性,与求和操作相比,准确率提高了+5.69%;与平均池化相比,提高了+2.31%。
不同训练目标的性能比较:表5展示了不同训练目标对模型性能的影响。仅使用对比学习损(公式6)训练的模型,其性能低于其他训练目标组合。正则化损失
公式5)和Smooth L1损失
(公式4)都能提升模型性能,分别带来+1.10%和+1.55%的准确率提升。结合所有训练目标带来了最大的性能提升,即+1.97%,进一步验证了提出的CRUE模块的有效性。
不同点采样数量的影响:如图6所示,我们探索了采样离散嵌入数量N的影响。我们发现,当N从1增加到4时,准确率从92.43%增加到94.83%。而当N从4增加到8时,准确率保持不变,表明继续增加N带来的性能提升逐渐减弱。直观上,这是因为分布表示在训练过程中引入了干扰,而更多的采样离散嵌入有助于缓解这种干扰。因此,在训练时我们将超参数N设置为5。
CRUE模块的事件嵌入t-SNE可视化:我们从HARDVS数据集中选取了属于六个类别的144个事件实例,其中包括一对语义不同的简单对比,以及两对具有相似语义的挑战性对比:“Hip Kick Jump”与“Hip Up Kick Jump”,以及“Standing Right Leg Lift”与“Standing Left Leg Lift”。图7展示了未经训练和采用/不采用CRUE模块训练前后事件嵌入分布的变化。比较图7(b)和(c)中的难点对,可以看到不同类别间的事件嵌入分布广泛,而我们提出的CRUE模块在区分这些语义相似的难点对方面表现更优。直观上,可视化结果证明了CRUE模块通过表达语义的不确定性,特别是在那些语义相似的实例中,增强了模型的性能。更多结果请参考补充材料。
图7。HARDVS数据集上事件嵌入的t-SNE可视化。(a)训练前;(b)没有CRUE模块的训练;(c) CRUE模块训练。
5. 结论及未来工作
我们介绍了ExACT,作为首次利用语言引导进行基于事件的动作识别的探索。我们提出了一种CRUE模块,旨在模拟人类的动作识别过程,尤其注重事件帧之间时间关系的概念推理以及动作不确定性的估计。此外,我们提出了AFE表示方法,该方法自适应地消除重复事件,为动态动作生成详细的事件帧。为了评估模型对包含多个具有不同语义的子动作的复杂动作语义的理解能力,我们提出了SeAct数据集,它带有丰富的语义动作描述,作为事件-文本动作识别的第一个基准。我们的ExACT框架在PAF和HARDVA数据集上达到了最先进的(SOTA)结果,并在我们的SeAct数据集上展现出了合理的表现。此外,我们将ExACT扩展到了事件-文本检索任务中,证明了其灵活的可迁移性。
未来工作:未来,我们将加强在各种事件视觉任务中对概念推理和不确定性估计模块的提升,并在具有丰富语义描述级标签的更大规模事件动作数据集上进行实验。这将有助于进一步拓展ExACT框架的应用范围和性能,深化其在理解和处理复杂动作场景中的能力。
读后总结
出发点1:如何表示事件以详细描绘动态动作而不产生冗余的事件帧?
创新点1:提出自适应精细事件(AFE)表示。类似于二叉树寻找叶节点的搜索算法,将一帧中的原始事件流等分为两个子流,计算两个子流的差分率R,若R高则表示将不同动作的事件堆叠到同一帧的概率高,需要继续递归拆分事件子流,通过划分事件流,实现将属于同一种类别的动作事件流打包成一帧,以减少相同静止物体的重复事件帧。
出发点2:如何将文本嵌入与事件嵌入相结合,以帮助推理动态动作的复杂语义并减少语义不确定性?
创新点2:提出概念推理不确定性估计(CRUE)模块。该模块分为概率推理融合部分和不确定性估计部分,在概率推理融合部分,为了解决一个动作可能由多个子动作构成的问题,利用文本嵌入作为指导,通过将文本嵌入和事件嵌入进行相似度计算得到概率推理权重,完成属于同一个动作的多个子动作的多个帧进行融合;在不确定性估计部分(还不是很理解),对事件和文本嵌入采用了概率分布编码器(将事件和文本嵌入从离散表示转换为分布表示),通过概率分布的方差量化语义不确定性,进而更好地反映动作识别中的不确定性问题。最后建立一个事件-文本嵌入向量空间。
创新点3:提出了首个富含语义的SeAct数据集,用于事件-文本动作识别,数据集为每个动作提供了详细的描述级标签,每个动作都附有一条由GPT-4[38]生成的不超过30词的动作描述,以丰富原始动作标签的语义空间。