Cross-Modal Learning with 3D Deformable Attention for Action Recognition

标题:基于三维可变形注意力的跨模态学习用于动作识别

发表:ICCV2023

摘要

在基于视觉的动作识别中,一个重要的挑战是将具有两个或多个异构模态的时空特征嵌入到单个特征中。在这项研究中,我们提出了一种新的三维变形变压器,用于动作识别,具有自适应时空感受野和跨模态学习方案三维可变形变压器由三维可变形性、局部节点跨步和时间跨步注意力三个注意力模块组成,将这两个跨模态标记输入到三维可变形注意力模块中,以创建具有反映时空相关性的交叉注意力标记,局部联合步幅注意力应用于在空间上结合注意力与姿态符号,时间跨步注意力在时间上减少了注意力模块中输入标记的数量,支持时间表达学习,而无需同时使用所有标记,可变形转换器迭代L次,并结合最后一个跨模态标记进行分类。提出的3D可变形变压器在NTU60, NTU120, FineGYM和PennAction数据集上进行了测试,即使没有预训练过程,其结果也优于或类似于预训练的最先进方法。此外,通过空间关节和时间步幅注意力可视化动作识别过程中的重要关节和相关性,提出了实现动作识别可解释电位的可能性。

1.介绍

时空特征学习是动作识别的重要组成部分,它不仅要融合每一帧的空间特征,而且要融合输入序列之间的时间相关性。先前在动作识别方面的研究[19,6,5,42,9,48]研究了三维卷积核在二维空间特征空间之外的额外时间空间的应用,从那时起,3D卷积神经网络(CNN)取得了很好的表现,并最终成为使用序列数据的各种动作识别任务的事实上的标准。用于动作识别的视觉变形器(ViTs)已经达到了普及的顶峰,最近被用于探索3D令牌嵌入,以融合单个令牌内的时间空间。然而,基于ViTs的动作识别方法[1,34]的局限性在于它们只能在有限的感受野中进行时空特征学习。

为了避免这个问题,已经进行了一些研究[15,57,47],为深度学习模型提供了更灵活的感受野,可变形的CNN利用动态卷积核来捕获强烈的对象区域。首先,它们利用嵌入的特征确定可变形坐标,然后将卷积核应用于从可变形坐标中提取的特征,可变形的vit[47,57]鼓励使用现有的注意力模块来学习可变形的特征,将查询标记投影到坐标上,以从键和值标记获得可变形的区域,然后将变形值标记应用于注意力图,注意力图是通过输入查询和变形键标记的缩放点积生成的。这些方法提出了一种新的方法,可以克服现有的标准化特征学习的局限性。然而,尽管这些研究取得了一些令人印象深刻的成果,但它们仍然局限于仅与空间维度兼容。因此,作为主要挑战,需要开发能够从图像序列中学习时空特征的新型可变形vit

另一个挑战是多模态输入特征在动作识别模型中的有效应用。根据特征类型将动作识别分为三类,第一种是基于视频的方法[56,4,46,29,20,43,33],传统上用于动作识别,这种方法受到噪声导致的性能下降的限制,例如不同的物体大小、遮挡或不同的相机角度。第二种是基于骨架的方法[51,25,12,13,11],主要是通过图神经网络(graph neural network, GNN)将姿势转换成图来识别动作,尽管该方法对噪声具有鲁棒性,但其性能高度依赖于姿态提取方法。为了克服前两种方法的缺点,第三种方法旨在使用多模态或跨模态学习同时融合异构领域特征,该方法可以同时训练视频和骨架特征,然而,由于大多数相关研究使用的是由每个模态的GNN + CNN或CNN + CNN组成的单独模型,因此构建有效的单一模型存在局限性

为了缓解上述缺点,我们提出使用具有3D可变形注意力的变压器来动态地利用时空特征进行动作识别。通过这种方式,提出的模型应用灵活的跨模式学习【模型特点:它在单个变压器模型中处理骨架和视频帧,骨架被投影到连续的关节标记上,每个关节标记包含每个关节坐标的激活,为了在每个模态之间提供有效的跨模态学习,该方法采用跨模态令牌来相互交换上下文信息,因此,所提出的模型能够在没有辅助子模型的情况下实现跨模态的性能提升,图1显示了之前的完全注意和所提出的3D可变形注意力之间的比较,在图1 (a)所示的完全关注的情况下,一个时空区域中的所有标记都针对一个特定的查询标记进行覆盖,相比之下,我们提出的3D可变形注意力方案(如图1 (b)所示)只考虑整个时空区域中具有高相关性的标记。本研究的主要贡献如下:

•我们提出了第一个3D可变形注意力,它自适应地考虑了变压器内的时空相关性,如图1 (b)所示,打破了以前的研究,即在一个完整的序列中考虑针对特定查询的所有标记。

•我们提出了一种基于互补跨模态令牌的跨模态学习方案,每个跨模态令牌在不同模态之间传递上下文信息。这种方法可以在单个变压器模型结构中支持简单而有效的跨模态学习。

•我们通过视觉解释提供了3D可变形注意力的定性证据,并证明所提出的模型优于以前的几种最先进的(SoTA)方法。

2. 相关工作

动作识别的时空学习。该领域的早期研究主要集中在使用3D CNN,这是2D CNN的扩展,近年来,这已成为基于视觉的动作识别的核心措施。PoseC3D[19]结合了来自骨架和输入视频帧的3D热力图,SlowFast[21]通过提供不同帧率之间的帧融合方案,对该领域做出了重大贡献,也有相关的方法[22,42,43,44,9,48,4,20,24]探索使用3D CNN架构进行动作识别,STDA[24]应用3D可变形CNN,捕获大量密集区域进行时空学习,在过去的几年里,随着GNN的出现,焦点已经转移到基于骨架的动作识别上,ST-GCN[51]已成为采用独立时空表示模块进行时空建模的基线,此外,vit由于其在顺序任务中的优越性能而引起了相当大的关注,STAR[1]应用交叉注意力来融合空间表征之间的时间相关性,ViViT[2]嵌入了一个带有3D标记器的输入视频,以在单个标记中组合时空特征,其他研究[7,1,31]采用时间步长来捕捉不同时间步长的多样性,然而,尽管三维变形的概念具有优异的性能,但由于各种结构限制,它不能应用于vit的注意力。

动作识别的跨模态学习。目前大多数动作识别方法都使用各种视频帧和骨架模式,几种方法[17,6,5,16]使用图形卷积网络(GCN)来处理原始骨架输入,并使用CNN来处理视频帧。VPN[17]应用GCN子网辅助CNN,将GCN网络的影像与CNN的特征图进行线性组合。MMNet[6]引入了一个由两个GCN子网和CNN组成的多模式网络,每个子网分别嵌入这些特征,然后在网络的末端对这些特征进行求和。其他研究[14,49,3,1,19,39]将图形骨架转换为热力图,PoseC3D[19]使用双3D CNN分支视频帧和3D热力图,它没有明确地考虑骨骼中关节之间的空间关系,这可能会限制它捕捉复杂和微妙动作的能力,或者降低区分涉及不同关节结构的类似动作的能力。STAR[1]提出将CNN特征图与2D联合热图相结合生成联合令牌,为了融合这两种模式,他们通过组合不同的模式令牌来连接多类令牌,尽管改进了跨模态学习的性能,但视频帧和骨架模态只是集成在一起,从而忽略了细节的设计。我们提出了一种有效的特征融合方法,称为跨模态令牌,为了交换上下文信息,每个令牌被分派到另一个模态中。

变形注意力变压器。二维可变形CNN学习可变形特征的思想已经被应用到ViT的注意力模块中,在包括图像分类在内的各种应用中都取得了优异的表现,将可变形的DETR[57]应用于物体检测,证明了其能够准确检测各种大小的物体,提出了一种具有较好数值稳定性和鲁棒性的可变形注意力转换器(DAT)[47]。在动作识别方面,用于时空学习的3D可变形CNN[24,26]表现出比2D可变形CNN更好的性能,但由于针对空间特征嵌入优化的注意力的结构约束,无法应用于变压器。因此,在本研究中,我们提出了一种新的3D可变形变压器,能够使用跨模态标记融合跨模态特征。该方法实现了基于局部关节步幅和时间步幅关注的三维可变形特征嵌入。本文的其余部分组织如下。第3节详细解释了所建议的方法。第4节提供了几个基准测试的实验分析以及可视化描述。最后,第5节对本研究进行了总结。

3. 方法

我们提出了一个具有自适应时空感受野和跨模态学习方案的动作识别的3D可变形变压器,所提出模型的整体架构如图2所示,并在以下章节中进行详细描述。

图2:我们的3D可变形变压器概述。(a)我们的模型由主干和一系列变压器块组成,每个变压器块使用不同的模态令牌来处理来自不同领域的内在属性,并将模态与跨模态令牌融合,该模型包括关节跨步和时间跨步注意,以减少计算成本。(b)提出的三维可变形注意力包括三维令牌搜索(3DTS)和注意力模块,输入RGB令牌Z在与模态令牌连接后作为查询令牌嵌入,来自3DTS的可变形标记也与模态标记连接,然后将其与键(Wk)和值(Wv)权重相乘。然后将它们提供给多头自注意(MSA),以便与查询令牌交互。

3.1. 跨模态学习

在动作识别中,跨模态学习已经成为主流,它利用了各种模式,如视频帧和骨架。一些成功的研究[19,6,5,17,23,16]采用了处理不同域特征的子网,然而,这些设计最终由于特定于域的子网而增加了冗余和复杂性。我们提出简单而有效的跨模态学习,用于相互交换上下文信息,我们的跨模态学习方法由主干[45]组成,主干[45]提供中间特征映射和顺序任务,当图像的高度为H,宽度为W,时间维数为T,特征维数为C时,骨干网络提供从中间层提取的视觉特征映射\mathrm{F}_{a}\in\mathbb{R}^{C\times T\times\frac{H}{2}\times\frac{W}{2}}\mathrm{F}_{b}\in\mathbb{R}^{4C\times T\times\frac{H}{8}\times\frac{W}{8}}。在Fb的情况下,我们将其视为视觉表征学习的RGB模态输入,而将局部级特征映射Fa作为结合骨架的姿态模态输入,为了融合两种模式,我们应用以下概念:

姿势模式。为了设计具有减轻冗余的跨模态学习方案,我们提出了面向视觉特征的姿势标记与联合热图相结合,如[19,1]。首先,【姿势模态设计:将连续的骨架序列分解为单关节单元,然后通过将关节投影到相应坐标(x_{t,r},y_{t,r})的空白的三维像素上,将每个关节重新组合成一个关节热图\mathcal{H}\in\mathbb{R}^{T\times R\times\frac{H}{2}\times\frac{W}{2}},其中,R为节点数,空间维度(H/2,W/2)与Fa的特征图的大小相同,最后,【姿势令牌的生成:使用关节标记生成姿势标记P,使用公式(1)进行计算。这个公式的意思是,在每个时间t下,对所有关节进行加权求和,其中权重由特征图Fa和高斯模糊输出(公式(2))相乘得到,这个过程将在每个时间步长生成一组姿势标记P,其中P包含了每个骨架序列的R个姿势令牌,每个令牌具有C个特征维度,公式如下所示:

\mathrm{P}_t=||_r\sum_j^{\frac{H}{2}}\sum_i^{\frac{W}{2}}\mathrm{F}_{a,t}(i,j)\mathcal{H}_{t,r}(i,j)\quad(1)

\mathcal{H}_{t,r}(i,j)=e^{-\frac{(i-x_{t,r})^2+(j-y_{t,r})^2}{2\sigma^2}}\quad(2)

其中\mathrm{P}\in\mathbb{R}^{C\times T\times R}由每个C维特征的骨架序列的R个姿势令牌组成,||表示级联,为了满足RGB模态的特征维度Fb,对姿势令牌进行线性投影,得到\mathrm{P}\in\mathbb{R}^{4C\times T\times R}.

RGB模式。采用RGB模式,将提取的视觉特征图Fb作为RGB标记,记作\mathrm{Z}\in\mathbb{R}^{4C\times T\times\frac{H}{8}\times\frac{W}{8}},对提取的RGB令牌Z进行位置嵌入(position embedding)融合。

3.2. 3D可变形Transformer

跨模式标记。一种直观的方法是连接来自两种模式的所有令牌,考虑每个令牌的特征,然后通过变压器堆栈组合信息,然而,要在单个变压器中组合不同的模态,需要经过深思熟虑的设计,并且模态必须是协作和互补的,类似地,在STAR[1]中,作者使用多类令牌进行跨模式学习,尽管这是一种简单而有效的方法,但与其他转换器一样,它只针对所有令牌的信息融合,而不考虑各种模式的内在特性和互补性,因此,我们提出了一种跨模态令牌,可以有效地组合变压器内的不同模态,跨模态令牌\mathrm{M}\in\mathbb{R}^{4C\times T\times3}是由三个可训练令牌组成的集合:CLS、RGB和姿势模态令牌。在以往的研究[18,41]中,CLS令牌被用作最终嵌入,通过与其他令牌交互来融合信息,我们将CLS令牌\mathrm{M}_{CLS}\in\mathbb{R}^{4C\times T\times1}视为编译其余两个模态令牌的“模态混合器”,这些令牌被分派到相互模态以交换其领域信息,第一个M_{RGB}M_{CLS}令牌被馈送到3D可变形注意力模块,然后,输出的RGB和CLS模态令牌,即三维可变形注意力的M_{RGB}M_{CLS},通过分离的变压器块与调度的CLS令牌配合,反映来自各自领域的信息。接下来,我们介绍如图2 (b)所示的三维可变形注意力,这是所提出的变压器的核心。

3D可变形注意力。虽然变压器最近成为视觉任务的新标准,但对动作识别任务的研究相对较少。由于变压器的性质考虑了输入令牌之间的长期关系,因此随着时间步长,它可能导致计算复杂性呈指数级增长,此外,为了解决静态变压器的问题,提出了在自关注中灵活选择键值位置的DAT[47];然而,它并不适用于需要处理跨模态和时空特征的动作识别。为了减轻复杂性,同时保持变压器的本质,受[47]的启发,我们提出使用3D可变形注意力进行动作识别,如图2 (b)所示,3D可变形注意可以自适应地捕捉RGB模态上的时空特征。

3D可变形注意力模块由3D令牌搜索(3DTS)和带有前馈网络(FFN)的多头自注意(MSA)组成,如图2 (b)所示。首先,模块的输入RGB令牌Z被馈送到包含k个卷积核的两层Conv3D的3DTS中,采用层归一化(LN)和GELU非线性,最后一个Conv3D生成偏移量(∆p),其中包含相对于参考点(p)的流场,参考点被定义为在3D空间中有的离散的点,偏移量引导参考点在时空标记Z中寻找具有判别性的标记坐标,如图3所示,通过选择从偏移量中获取的调整坐标,从时空标记Z中选择标记,生成3D可变形标记˜Z,

\tilde{\mathrm{Z}}=\text{3DTS}(\mathrm{Z};\omega)\qquad(3)

其中Z\in\mathbb{R}^{4C\times T\times\frac{H}{8}\times\frac{W}{8}}\tilde{Z}\in\mathbb{R}^{4C\times\tilde{T}\times\tilde{H}\times\tilde{W}}分别是输入和选择的RGB令牌。\tilde{T},\tilde{H}\tilde{W}的大小是根据卷积核大小k来确定的,在我们的例子中,我们将k设置为7且不填充,以稀疏地提取可变形的标记并提高效率。另外,\mathbf{W}_{q}\in\mathbb{R}^{4C\times4C}和ω分别是3DTS中MSA和3D conv块的可训练权值和模型参数,应该注意的是,虽然查询令牌是以与转换器相同的方式组成的,但键和值令牌是由来自3DTS的选定令牌组成的。我们实施的更多细节见附录B。

然后分别使用W_kW_v将这些令牌嵌入到键和值令牌中,在此,我们的目标是使M_{RGB}令牌学习RGB模态特征,M_{CLS}在RGB和姿态模态之间交换领域信息,为了将跨模态标记与RGB模态融合,将M_{RGB}M_{CLS}和时空特征标记Z这三个标记连接到标记X。

\mathbf{X}=[\mathrm{Z}||\mathrm{M}_{RGB}||\mathrm{M}_{CLS}]\quad(4)

其中M_{RGB}M_{CLS}分别代表从RGB模态和模态头部的部分提出的跨模态令牌中获得。

类似地,选择的可变形标记\tilde{Z}与两个跨模态符号耦合以产生\tilde{X}

\tilde{\mathbf{X}}=[\tilde{\mathbb{Z}}||\mathcal{M}_{RGB}||\mathcal{M}_{CLS}]\qquad(5)

然后,将X乘以查询权值W_q,将X分别乘以键权值W_kW_v,这些重新组合的令牌作为查询、键和值提供给多头自注意力。

\mathbf{X}=\mathbf{X}+\text{MSA}(\mathbf{X}\mathbf{W}_q,\tilde{\mathbf{X}}\mathbf{W}_k,\tilde{\mathbf{X}}\mathbf{W}_v)\quad(6)

最后通过LN和FFN的结合得到3D可变形注意力的输出X。

[\mathrm Z,\mathrm M_{RGB},\mathrm M_{CLS}^{'}]=\mathbf X+\mathrm F\mathrm F\mathrm N(\mathrm L\mathrm N(\mathbf X))\quad(7)

我们将从提出的3D可变形注意力中选择的令牌的注意力分数可视化,如图5所示,我们提出的3DTS识别具有自适应感受野的基本强烈区域。

局部关节跨步注意力。在动作识别中,一个场景中经常会出现多个人物;因此,关节标记的数量随着人数的增加而增加,为了降低计算复杂度,我们将多人的关节连接成一系列的关节令牌,虽然这种方法是一种有效的方法,可以同时处理同一场景中的多人,而不会显著增加复杂性,但它仍然会导致一个问题,即随着人数的增加,联合令牌的大小呈指数级增长,为了避免这个问题,我们使用联合令牌上的滑动窗口来配置查询、键和值令牌,如图4 (a)所示,每个滑动窗口中的所有令牌都被平面化,然后与从3D可变形注意力调度的M_{pose}M_{CLS}^*连接,以应用缩放点积,这比一次计算所有令牌并维护彼此之间的关系更有效。关节步幅注意的输出是位姿令牌P和模态令牌M_{pose}M_{CLS}^*

计算得到的RGB标记Z和姿态标记P被输入到时间步幅注意模块,在此步骤之前,为了融合来自每个模态的上下文信息,从3D可变形注意力中记忆的M_{CLS}^*和从关节跨步注意中计算的M_{CLS}^*一起投影到一个新的单一M_{CLS}中,如图2 (a)所示,时间跨步注意模块,学习与跨模态标记连接的标记   的时间变化之间的相关性。

时间跨步注意。当转换器处理输入令牌时,注意模块存在一些限制。一般来说,注意力模块涵盖了所有带有缩放点积的输入标记,因此,注意力模块的复杂性高度依赖于输入令牌的数量,在顺序数据的情况下,这个问题更为严重,因为输入令牌随着时间维度的大小而增长,Ahn et al.[1]将时间维度分为两组,其中包含有规则交错的标记,尽管时间维数减半,但复杂性仅略有降低,并且邻域的时间相关性解耦,与Ahn等人不同的是,我们提出了一种降低复杂性和增强交叉注意时间相关性的时间步幅,在构建输入查询、键和值令牌时,时间维度被分割成定期增加的步,以降低复杂性来耦合各种顺序关系。如图4 (b)所示,我们首先为给定步幅设置一个本地时间窗口。此窗口遍历所有令牌并指定查询、键和值令牌。它不仅减少了注意力模块的输入标记的数量,而且支持时间表征学习,而不需要一次使用所有的标记。

如上所述的所有可变形变压器都重复l次,如图2 (a)所示。为了得到最终的逻辑,我们只将跨模态标记与通道尺寸连接起来,然后将它们输入分类头。

4.实验

5.总结

vit已成为各种视觉任务的主流,取得了压倒性的成绩;然而,它在动作识别任务中使用相对较少。因此,我们首先提出了一种由跨窗交叉注意力组成的三维可变形注意力,以更好地学习时空特征,并提出了一种跨模态的动作识别框架。该方法在具有代表性的动作识别数据集上取得了新的SoTA性能。定性实验结果表明,该方法具有较强的时空特征学习能力。

  • 25
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值