A Dense-Sparse Complementary Network for Human Action Recognition

七77.

已于 2024-03-02 20:49:51 修改

阅读量1.1k

点赞数 10

文章标签：计算机视觉

于 2024-02-29 16:06:02 首次发布

本文链接：https://blog.csdn.net/weixin_46687145/article/details/136353493

版权

4.4. 在DSCNet中不需要使用密集采集骨架

标题：基于RGB和骨架模态的密集-稀疏互补网络用于人体动作识别

发表：Expert Systems With Applications（中科院1区，SCI Q1）

源文链接：A Dense-Sparse Complementary Network for Human Action Recognition based on RGB and Skeleton Modalities - ScienceDirecthttps://www.sciencedirect.com/science/article/pii/S0957417423035637

源码链接：GitHub - Maxchengqin/DSCNethttps://github.com/Maxchengqin/DSCNet

摘要

基于RGB的人体动作识别在复杂环境和多变场景下的弱点可以通过骨架模式得到弥补。因此，融合RGB和骨架模式的动作识别方法受到越来越多的关注。然而，由于采样、建模和融合策略的优化不够，现有方法的识别性能仍然不理想，甚至计算成本也很高。在本文中，我们提出了一种密集-稀疏互补网络(DSCNet)，旨在以较低的计算成本利用RGB模式和骨架模式的互补信息来提升动作识别的性能。具体而言，我们首先根据RGB和骨架模式的优势分别采用密集和稀疏采样策略，然后，我们利用骨架作为引导信息对RGB帧中人物的关键活动区域进行裁剪，很大程度上消除了背景的干扰。此外，提出了一种短期运动提取模块Short-Term Motion Extraction Module (STMEM)，将密集采样的RGB帧压缩成更少的帧，然后再馈送到骨干网络，避免了计算成本的激增。并设计了稀疏多尺度时空卷积神经网络Sparse Multi-Scale Spatial–Temporal convolutional neural Network (Sparse-MSSTNet)对稀疏采样的骨架进行建模。大量实验表明，该方法有效地结合了RGB和骨架模态的互补信息，提高了识别精度。DSCNet在NTU RGB+D 60, NTU RGB+D 120,PKU-MMD, UAV-human, IKEA ASM and Northwest-UCLA数据集上取得了具有竞争力的性能，且计算成本比现有方法低得多。代码可在https://github.com/Maxchengqin/DSCNet上获得。

Keywords:Action recognition，Multi-modality fusion，Short-term temporal modeling，Multi-scale ConvNet，Less computational cost

1.简介

动作识别是计算机视觉的核心任务之一，在智能监控、人机交互、康复、医疗等诸多领域有着广泛的应用前景。特别是在一些专业领域，动作识别也可以很好的代替人类专家进行专业指导。例如，在运动训练中，基于动作识别模型的专家系统分析运动员的动作，并提供有关技能、受伤风险或细节优化的反馈。在物理治疗中，动作识别可以定量评价患者的康复程度。

现有的研究已经深入研究了(Donahue et al.， 2017;刘等，20122a;Wang et al.， 2020, 2019)基于各种模态的方法，包括RGB视频、深度序列、骨架数据、光流等。在这些模态中，RGB模态包含丰富的视觉信息，包括颜色、纹理和轮廓，有助于捕捉微小的运动。然而，它很容易受到背景和照明条件的影响。骨骼数据表示人体关节的坐标，对不断变化的背景和光照条件具有很强的鲁棒性。因此，一些作品(Li et al.， 2020c;Song et al.， 2018;赵等，2017a;Zolfaghari等人，2017a)研究了整合RGB和骨架模式以增强动作识别性能的框架。对于多模态的动作识别，关键是要对每个模态都应用一个合适的模型，并充分利用互补的语义信息。

随着深度学习的发展，动作识别方法也有了显著的进步。对于RGB模态，经典的双流网络(Simonyan & Zisserman, 2014)揭示了时间建模的重要性，它使用光流作为时间网络的输入。Temporal Segment Networks (TSN)的分割策略(Wang et al.， 2019)为动作识别提供了新的采样标准模板。另一方面，3D卷积神经网络(CNN) (Carreira & Zisserman, 2017;Tran et al.， 2015)由于其天然的时间维建模能力，被广泛应用于动作识别。为了摆脱时间特征建模对计算量大的三维卷积的依赖，一些作品设计了功能强大的时间维度模块(Li et al.， 2020a;Lin et al.， 2022;Wang et al.， 2021a)，显著提高了2D-CNN的时间维建模能力。

对于骨架模态，各种方法大致可以分为三类:基于递归神经网络(RNN)的方法、基于CNN的方法和基于图卷积网络(GCN)的方法。基于RNN的方法(Li et al.， 2018a;刘等，2018b;Zhang等人，2018a)将序列数据中动态依赖关系的学习能力扩展到骨架数据的时空建模。基于CNN的方法(Caetano et al.， 2019;Li et al.， 2018b;Tang et al.， 2022)通常将骨骼的空间结构和时间动态信息编码为伪图像，并将其馈送到ResNet等骨干网络(He et al.， 2016)进行动作识别。最近，由于骨架数据的自然图形形式（行为可通过可视化的方式展示出来），基于GCN的方法(Li et al.， 2022;Shi et al.， 2019;Yan et al.， 2018)近年来受到越来越多的关注，并取得了良好的成绩，GCN也已成为处理骨架数据的标准方法。

考虑到RGB的外观特征和骨架的结构特征对动作识别任务是互补的。部分作品(Bruce et al.， 2023;Das等人，2019;Song et al.， 2018;赵等，2017a;Zolfaghari等人，2017a)探索了基于两种模式的融合策略。Zhao等(2017a)采用基于两流框架的RGB和骨架数据，对特征融合和评分融合进行了评估。Song et al.(2018)提出了一种针对RGB和光流的骨架引导特征提取方法。注意机制也被引入到几种方法中(Das et al.， 2020;Kim et al.， 2023;Liu et al.， 2018b)加强这两种模态的联合建模。Bruce et al.(2021)在联合训练中利用了蒸馏机制，提高了集成识别的准确性。

然而，以前的方法主要集中在整合网络结构以促进深度特征交互，忽略了两种模式在数据层面的互补性。此外，现有的方法一般是移植成熟的单模态网络进行多模态建模。由于没有基于多模态对每个网络分支进行有针对性的优化，导致识别性能不理想，增加无意义的计算成本。为了克服这些缺点，在本文中，我们提出了一个使用RGB和骨架模式进行动作识别的密集-稀疏互补网络(DSCNet)。具体来说，对于骨架模态，我们采用稀疏采样策略，并使用我们之前的工作(Cheng等人，2023)(多尺度时空卷积神经网络(MSSTNet))的变体，将其命名为Sparse-MSSTNet，对稀疏骨架进行建模。对于RGB模式，我们采用密集采样策略来补充稀疏采样骨架引起的细微运动损失。在RGB帧中，骨架也被用作指导来裁剪出最小的人类动作区域，这在很大程度上消除了背景的干扰。值得注意的是，我们不是逐帧使用相应的骨架来裁剪RGB人体区域，而是利用所有的稀疏采样骨架来获得人体的最小全局活动区域，然后裁剪所有的RGB帧。这使得所有帧的背景尽可能一致，有助于网络提取人体的关键运动信息。此外，考虑到TSN (Wang et al.， 2019)和TSM (Lin et al.， 2022)等先前的方法会随着采样密度的增加而增加计算成本，我们设计了一个短期运动提取模块(STMEM)来从密集采样的RGB帧中分段提取运动信息，STMEM显著减少了馈送到骨干网的数据，同时也聚合了足够的运动信息。

本文的贡献可以概括为以下几点:

1. 我们根据RGB和骨架模式的特征制定了有针对性的采样策略。

2. 我们设计了一个适用于稀疏骨架的动作识别网络(Spare-MSSTNet)，该网络能够以较小的计算成本实现基于骨架的动作识别。

3. 我们提出的STMEM有效地利用了密集采样的RGB帧，以较低的计算成本避免了细微运动信息的丢失。

4. 结合上述两个组件以及骨架引导的RGB帧裁剪策略，我们构建了有效利用RGB和骨架模式互补性的DSCNet。在6个大型动作识别数据集上取得了具有竞争力的性能。

2.相关工作

2.1. 基于RGB的动作识别

由于RGB相机的广泛使用，RGB模态是动作识别中使用最多的数据。近年来，各种深度学习架构(Baradel et al.， 2018b;Khaire et al.， 2018;Lin et al.， 2022;Simonyan & Zisserman, 2014;Wang et al.， 2019;Zhu等人，2018)已经提出并显示出强大的代表性和卓越的性能。Simonyan和Zisserman(2014)提出了经典的双流框架，通过空间和时间网络分别学习外观和运动特征。随后的许多研究都在双流框架的基础上进行了扩展和改进。Wang et al.(2019)将动作片段分成多个片段，结合双流框架，最后利用分数融合得到视频级识别结果。Zong等人(2021)将双流扩展到三流，以增强从运动显著性流中提取关键运动特征的能力。

鉴于RNN的循环连接具有学习时间信息的天然能力，一些方法提出了基于RNN的动作识别的新结构，如长短期记忆(LSTM) (Du et al.， 2017;Perrett & Damen, 2019;Sun et al.， 2017)，对RGB视频中的时间依赖性进行建模。Wu等人(2021)使用两个LSTM分别处理粗尺度和细尺度的CNN特征，以实现有效的动作识别。一些方法(He et al.， 2021;Zhao & Jin, 2020)使用了双向LSTM，它利用两个独立的LSTM来学习动作的前向和后向时间特征。

3D CNN (Carreira & Zisserman, 2017;Tran et al.， 2015)由于具有同时学习时空特征的特点，被研究人员广泛用于动作识别。卷积3D (C3D) (Tran et al.， 2015)方法展示了从原始视频端到端学习时空特征的能力。Ali等人(2017)将DenseNet扩展到时态3D CNN (T3D)，可以提取各种尺度的时空特征。Carreira和Zisserman(2017)通过扩展2D CNN的时间维度，设计了一个膨胀3D CNN (I3D)。

不幸的是，3D CNN往往意味着沉重的计算成本，因此，一些基于TSN (Wang et al.， 2019)框架的作品设计了巧妙的时间特征提取模块，以增强时间维度建模。如Lin等人(2022)提出TSM，通过移动不同帧的网络隐藏层中的部分通道，实现时间维度信息的交互。Wang等(2021b)提出了一种提取长期和短期时空特征的两级时间差异模块(TDM)。Wang等人(2021a)提出了一个时空、通道和运动激发(ACTION)模块，该模块通过多任务处理分别捕获时空、通道级和运动模式的信息。Wu等人(2023)设计了一个算术时间模块(ATM)，它通过计算抽取的帧特征对之间的加减乘除来捕获辅助时间线索。Huang等人(2023)提出了用于视频理解的时间自适应卷积(TAdaConv)，通过构建沿时间维度的自适应权重校准机制，有效地对视频中复杂的时间动态进行建模。相比之下，这些方法可以获得不次于3D CNN的识别精度，且计算成本更低，逐渐成为基于RGB模态的动作识别方法的主流。

2.2. 基于骨架的动作识别

骨架数据包含动作识别的关键信息，使其成为一种广泛使用的模式。由于RNN在序列数据建模方面的优势，它比CNN更早地用于基于骨架的动作识别(Du et al.， 2015;Hu et al.， 2017;刘等，2017c;Si等人，2019;Wang & Wang, 2017)。Du等人(2015)设计了一种端到端分层双向RNN (HBRNN)，将整个身体分成5个部分馈送到RNN中，将输出特征分层连接，得到预测的动作。Wang和Wang(2017)提出了一个双流RNN框架，分别对骨骼的空间配置和时间动态进行建模。Lee等人(2017)提出了时序滑动LSTM (TS-LSTM)框架，对短、中、长期骨架序列进行综合建模。

尽管CNN凭借其强大的建模能力在图像处理方面取得了巨大的成功，但分析骨架数据中的时空依赖关系仍然是一个挑战。在一些基于CNN的方法中(Duan et al.， 2022;侯等人，2018;Kim & Reiter, 2017;李等人，2017b;刘等，2017b;Nie et al.， 2019;Wang et al.， 2018;Yuan等人，2023)，骨架通常被编码成伪图像，并输入CNN进行动作识别。Wang等人(2018)提出了一种联合轨迹图，将骨架节点的时空关系编码为彩色图像，然后利用CNN进行动作识别。Li等人(2017b)提出了一种联合距离图(Joint Distance Map, JDM)，将节点之间的距离编码成一个视图不变的信息图。Duan et al.(2022)和Yuan et al.(2023)将骨架模态转化为三维热图体，并使用3D- CNN进行特征提取。

由于受GCN在图像分类领域的成功启发，人体骨骼可以自然地表示为图形(Ding et al.， 2022a, 2022b, 2022c;秦等人，2019;Zhang et al.， 2023a, 2019)，许多基于GCN的方法(Chen et al.， 2021;Cheng et al.， 2020;Li et al.， 2023;刘等，2020c;Shi等人，2019a, 2019b;Yan等人，2018)已经提出了基于骨骼的动作识别。Yan et al.(2018)提出了开创性的时空GCNs (ST-GCNs)，它在图的引导下全面学习时空特征。Shi等人(2019a)提出了一种有向图神经网络(Directed Graph Neural Network, DGNN)，该网络将骨骼作为一个有向无环图，有效地提取关节和骨骼特征。为了降低GCNs的计算成本，Cheng等(2020)提出了一种ShiftGCN，它采用了类似于TSM的移位操作，以轻量级的计算成本获得了良好的识别性能。Liu et al. (2020c)提出了一种多尺度3D图卷积(MS-G3D)网络，该网络直接捕获跨时空特征，并取得了令人印象深刻的性能。Chen等人(2021)提出了一种通道拓扑优化图卷积 Channel-wise Topology Refinement Graph Convolution (CTR-GC)算法，用于动态学习不同的拓扑结构，并有效地聚合不同通道的骨架数据中的关节特征。为了提取非相邻时间距离之间的关键时间关系，Li等(2023)提出了一种时间激励Tem-poral Excitation GCN (TE-GCN)算法，该算法利用自构建的时间关系图来捕获复杂的时间依赖关系。

此外，受Transformers (Vaswani et al.， 2017)在自然语言处理(NLP)方面成就的激励，许多研究(Ibh et al.， 2023;刘等，2022b;Lv & Gong, 2023)已经将Transformer扩展到基于骨骼的动作识别。例如，Liu等人(2022b)提出了一种核自注意力自适应图变压器网络Kernel Attention Adaptive Graph Trans-former Network (KA-AGTN)，该网络通过基于多头自注意的图变压器算子对节点之间的高阶空间依赖性进行建模。为了捕获全面的局部关系，Lv和Gong(2023)引入了一个变压器网络，该网络利用多粒度时间分割聚合方法(MTS-Former)从多个粒度级别提取联合特征。Ibh等人(2023)提出了一种基于变压器的模型TemPose，用于细粒度运动识别，以提高对羽毛球运动员详细动作的理解。

2.3. RGB和骨架模式的融合

为了利用RGB和骨骼数据的互补性，许多方法(Baradel et al.， 2017,2018a;Bruce et al.， 2023;Duan等，2022;Liu & Yuan, 2018;Song et al.， 2020;张等，2018b;Zhao等人，2017b)探索了结合这两种模式的策略。Zhao等人(2017b)提出了一种由CNN和RNN组成的双流框架，对RGB和骨架模式进行选择性处理。Baradel等人(2017)也做了类似的工作。Zolfaghari等人(2017b)引入了一种三流3D-CNN网络，对姿势、运动和原始RGB图像进行建模。Das等人(2019)提出了一种人体拓扑注意机制，用于指导动作识别的时空注意图计算。Cai等人(2021)引入了一种双流GCN网络，对骨架数据和从RGB数据中获得的关节校准流块进行建模。

以上方法通常是对两种模态独立建模，然后通过分数融合得到最终的识别结果。揭示了两种模态的互补特性，但两种模态之间的信息交互是有限的。为了进一步挖掘视频模式和骨架模式潜在的互补特征，许多方法主张在模型层面上对两种模式进行特征融合。例如，Das等人(2020)使用空间嵌入和注意力网络构建了一种新的视频姿态网络(VPN)，该网络将骨架和RGB数据投影到公共空间中，并部署了跨模态注意力机制。他们的后续工作，VPN++ (Das et al.， 2022)，引入了特征级和注意力级蒸馏来增强对噪声骨架数据的鲁棒性。基于模型的多模态网络(MMNet) (Bruce et al.， 2023)采用基于模型的方法融合RGB和骨架模式，显著提高了识别精度。Bruce等人(2021)开发了一种师生多模态融合(TSMF)网络，不仅提高了学生网络性能，还提高了集成精度。郭等人(2023)基于不同模式可以保持时间一致性和空间互补性的假设，提出了双向共时跨空间注意力融合模型Bi-directional Co-temporal and Cross-spatial Attention Fusion Model(B2C-AFM)，该模型沿时间和空间维度部署了多模式特征的异步融合策略。

最近，Transformer也被引入到融合RGB和骨骼模式。Kim等人(2023)设计了一个具有自适应时空感受野和跨模态学习方案的3D可变形Transformer。Shi等人(2023)提出了一种基于双流转换器的RGB和骨架模态融合动作识别框架，该框架为RGB帧和骨架热图设置了不同的时空分辨率。Sun等人(2023)将有效的双流特征池和融合机制与视觉Transformer结合起来，增强了RGB和骨架模态的时空特征表示。为了对跨模态数据构建独立的模型和平衡特征表示，Ahn等(2023a)提出了一种时空交叉(STAR)-Transformer，它可以有效地将两个跨模态特征表示为可识别的向量。

经过多年的发展，基于RGB和骨骼模式融合的人体动作识别不断得到完善。然而，在以下几个方面还需要进一步探索:(1)在数据采样方面，以往的方法大多采用单模态建模的采样策略，但没有从信息互补的角度对采样策略进行优化，往往导致信息冗余或不足。(2)在建模方面，虽然针对两种模态选择了合适的神经网络，但大多遵循单一模态的方法，没有从全局角度对网络进行优化，也没有简化不必要的网络组件，造成了计算成本的浪费。(3)在模态融合方面，目前识别精度最高的方法大多侧重于网络层面的信息交互，忽略了数据层面骨架对视频的引导作用。虽然有一些作品(Cai et al.， 2021;Tian et al.， 2016)，即裁剪出各个关节的局部运动，人体拓扑结构没有保留，后续建立局部运动之间的关系无疑增加了新的挑战。

为了解决上述困境，我们构建了DSCNet。具体而言:(1)在数据采样方面，考虑到RGB模态具有识别细微动作的潜力，我们对其进行密集采样以保留足够的运动信息。骨架模态擅长定位关键动作区域，不具备识别细微动作的能力。在与RGB的组合中，不需要密集的骨架，因此是稀疏采样。(2)在建模方面，对于RGB模态，基于主流TSN框架方法的计算成本(Li et al.， 2020a;Lin et al.， 2022;Wang et al.， 2021a, 2019;Wu et al.， 2023)与采样密度成正比。因此，以往的方法大多采用稀疏采样。为了适应密集采样的RGB模式而不大量增加计算成本，我们设计了STMEM，它以较小的计算成本将密集采样的RGB帧压缩为有限的运动数据，有效地限制了模型的总体计算成本。对于稀疏采样的骨架，我们将MSSTNet (Cheng et al.， 2023)简化为Sparse-MSSTNet，以适应较短的时间维度，这也需要有限的计算成本。(3)在融合方面，我们重点以骨架数据为指导，剪裁出RGB帧的关键动作区域，排除大部分不相关背景，这对输入分辨率有限的RGB网络非常有帮助，显著提高了RGB模态的识别精度。最后，通过RGB网络和骨架网络的分数融合，进一步提高识别性能。

3. DSCNet

3.1. 框架

我们提出了一种基于RGB模式和骨架模式的动作识别方法DSCNet，旨在以最小的计算成本利用多模式的互补优势。DSCNet的总体框架如图1所示。对于RGB视频，我们首先将其均匀划分为𝑘段，为每个段随机设置一个起始点，并从起始点连续采样𝑡帧。𝑐、h、𝑤分别为RGB帧的通道、高度和宽度。然后将每个片段的中间帧送入姿态估计器，得到人体骨架。一方面，𝑘个骨架被输入到Sparse-MSSTNets中用于动作识别，另一方面，它们被用作RGB帧裁剪的指导。裁剪的RGB帧被馈送到STMEM以获得𝑘个运动区域。然后将运动区域输入RGB动作识别骨干网络。最后通过融合多流网络的分类分数得到预测结果。

图1。提出的DSCNet框架。我们首先在RGB帧中通过稀疏姿势估计获取骨架。生成的骨架数据用于基于骨架的动作识别和指导RGB帧的裁剪。裁剪后的RGB帧随后通过STMEM处理得到运动区域，然后通过骨干网络进行预测。骨架数据通过定制的Sparse-MSSTNet进行预测。最后通过融合得分得到最终结果。

3.2. 通过骨架引导裁剪RGB帧

由于RGB帧中有许多与动作无关的背景，从原始RGB帧中提取运动信息是一个挑战。在这里，我们采用骨架引导裁剪策略。具体来说，假设骨骼关节的横坐标x∈𝑋，纵坐标y∈𝑌，那么关节在RGB框架横坐标上的活动区间分别为[𝑚i𝑛(𝑋)，𝑚𝑎x(𝑋)]和[𝑚i𝑛(𝑌)，𝑚𝑎x(Y)]，如图1左下角的蓝色边界框所示。骨架活动区域的宽度和高度分别为 $w^{j}=max(X)-min(X)$ 和 $h^{j}=max(Y)-min(Y)$ 。为了确保人体区域被充分地输入到后续的网络中，并为数据增强保留冗余，我们将边界框的短边和长边分别填充30%和20%。同时，为了避免边界框超出RGB帧的边界，我们将边界框限制在RGB帧的边界内。假设 $h^j$ 大于 $w^j$ ，则最终活动区域的横坐标与纵坐标的间隔可表示为

$[max(min(X)-0.3w^j,1),min(max(X)+0.3w^j,w)]\qquad(1)$

和

$[max(min(Y)-0.2h^j,1),min(max(Y)+0.2h^j,h)],\qquad(2)$

其中𝑤和h是原始RGB帧的宽度和高度。我们使用图1左下角的红色边界框表示最终裁剪区域，该区域用于裁剪所有采样的RGB帧。裁剪策略允许裁剪的帧保留相同的背景，这有助于在随后的STMEM中突出显示动作发生的区域。

公式1表示分别向左右填充了骨架活动区域的宽度的30%，并且确保填充过程中的活动区域不会超过RGB帧的大小；公式2类似。

3.3. STMEM

将密集的RGB帧直接馈送到骨干网络会导致昂贵的计算成本。因此，我们提出STMEM分割提取运动信息，将密集采样的RGB帧压缩成一个稀疏集，从而显著减少骨干网的输入数据。往届作品(Fernando et al.， 2017;Khaire et al.， 2018;Wang et al.， 2019)已经证明堆叠帧差可以在时间建模中发挥重要作用。然而，该方法存在两个不足:第一，过度的时间尺度可能导致关键上下文信息的重叠;其次，手工预处理方法不能很好地适应各种动作。为了解决这些问题，我们提出使用卷积神经网络在短时间尺度上提取运动信息。STMEM可以与骨干网络连接，形成端到端的完整动作识别网络，这意味着它的参数可以在训练过程中不断优化，以适应不同的动作。

详细架构如图1右下方所示。对于分段得到的视频中的𝑡帧，我们首先计算残差帧 $(Frame_{diffs})$ 。 $Frame_{diffs}=({frame_2-frame_1,frame_3-frame_2,...,frame_t-frame_{t-1}})$ 。然后使用卷积层提取RGB帧和残差帧 $Frame_{diffs}$ 的时空特征 $F_{st}$ 。 $Fst=Conv3(Concat(RGBframes,Frame_{diffs}))\qquad(3)$

其中，Conv3表示卷积核大小为3 × 3的卷积层。与单独使用 $Frame_{diffs}$ 相比，连接RGB帧保留了足够的空间特征。然后，为了增强关键的运动信息，我们使用 $Frame_{diffs}$ 通过最大池化层、卷积层和sigmoid函数，生成时间注意力掩模，运动区域是通过时间注意力掩模和 $F_{st}$ 逐元素相乘得到的。整个过程可以描述为:

$Motionmap=\sigma(Conv3(maxpool(Frame_{diffs})))\odot Fst\qquad(4)$

其中，maxpool(.)表示时间维度上的最大池化操作，σ表示s型函数。⊙表示逐个元素的乘法。图2显示了一些动作的运动图。可以看出，运动区域以一种平滑的方式突出了动作发生的区域，淡化了无关紧要的背景。值得一提的是，这里显示的是由运动区域转换而来的伪彩色图像，其中的颜色没有特殊的含义。

生成的时间注意力掩码决定了模型对每个时刻的帧在特征提取中的重要程度。当掩码值接近 1 时，模型会更加关注该时刻的帧，在特征提取中占据更大的权重；而当掩码值接近 0 时，模型会较少关注该时刻的帧，其特征对最终结果的贡献较小。

图2.由STMEM获得的运动区域的可视化。

3.4. Sparse-MSSTNet

我们的研究采用MSSTNet (Cheng et al.， 2023)作为骨架模态的基准网络。为了适应稀疏采样的骨架，我们对MSSTNet进行了调整，得到了Sparse -MSSTNet。MSSTNet由7个MSST模块和2个池化模块组成，采用不同尺度的一维卷积对骨架的时空维度进行建模。MSSTNet是为密集采样的骨架设计的，输入的时间维度设置为200，而我们使用的稀疏采样的骨架的分段数k设置为8。因此，我们删除了MSST模块中不必要的大小为11的大卷积核，修剪后的MSST模块如图3所示。为了避免时间信息的丢失，我们将除第5个模块外的所有MSST模块的时间维卷积步幅减小为1。Sparse -MSSTNet的详细布局如表1所示，其中包含了各种尺度卷积的通道。MSST模块中由3 × 3、5 × 1、7 × 1和第一个1 × 1卷积层的步长来控制时间维度的大小，其他卷积层的步长为1。空间维度的大小由池化模块的步长控制。每个模块的输出是下一个模块的输入。对于单个人的动作识别，Sparse-MSSTNet只需要0.44G FLOPs的计算成本。

Our study employs MSSTNet (Cheng et al., 2023) as the base- line network for skeleton modality. In order to accommodate sparse skeletons, we adapt MSSTNet to obtain Sparse-MSSTNet. The MSSTNet consists of 7 MSST modules and 2 pooling modules, employing one- dimensional convolutions of various scales to model the temporal and spatial dimensions of the skeleton. MSSTNet is designed for dense skeletons, the temporal dimension of the input is set to 200, whereas the number of frames 𝑘 of the sparse skeletons we use is typically 8. Consequently, we removed the unnecessary large convolution kernels of size 11 in MSST modules, the pruned MSST module is shown in Fig. 3. We reduced the stride of the temporal dimension convolution in all MSST modules except the fifth to 1 to avoid loss of temporal in- formation. The detailed layout of Sparse-MSSTNet is shown in Table 1, which includes the channels of convolutions of various scales. The stride in MSST modules is used by the 3 × 3, 5 × 1, and 7 × 1 and the first 1 × 1 convolution layer to control the size of the temporal dimen- sion, while the stride of other convolution layers is 1. The size of the spatial dimension is controlled by the strides of pooling modules. The output of each module is the input of the next module. Sparse-MSSTNet requires only 0.44G FLOPs computational cost for single-person action recognition.

原文链接：

Multi-scale spatial–temporal convolutional neural network for skeleton-based action recognition | Pattern Analysis and Applications (springer.com)

原本的MSST模块：

原本的MSSTNet：

表1.Sparse -MSSTNet的体系结构。我们通过时间卷积和步幅为2的平均池化来减小特征图的大小。为了保证不同卷积分支生成的特征图具有相同的大小，在每个卷积分支中应用适当的填充。每个卷积层或池化层之后是一个批处理归一化层和一个ReLU层。

3.5. 损失函数和融合机制

为了优化DSCNet，我们选择了三个子网的标准交叉熵损失。每个损失函数可表示为:

$Loss(Y,N)=-\sum_{n=1}^NY_clog(Y'),\qquad(5)$

其中:N表示动作类别的个数; $Y_c$ 是真实标签的独热编码（one hot vector）;𝑌’是类别的概率分数。

为了融合RGB和骨架网络的预测结果，我们使用加权评分融合机制，可以表示为:

$c=arg~max\sum_{m=1}^{M}Y_{m}^{\prime}W_{m},\qquad(6)$

其中𝑐为动作类别，𝑀为子网数量， $Y_{m}^{\prime}$ 为子网𝑚的类别概率得分， $W_m$ 为对应的权重。

4. 实验

4.1. 评估数据集

我们使用六个数据集来评估本文的方法:NTU RGB+D 60 (Shahroudy et al., 2016), NTU RGB+D 120 (Liu et al.,2020a), PKU-MMD (Liu et al., 2017a), Northwestern-UCLA (N-UCLA)(Wang et al., 2014) UAV-human (Li et al., 2021), and IKEA ASM (Ben-Shabat et al., 2021))数据集。

NTU RGB+D 60数据集是南洋理工大学(NTU)收集的大规模RGB-D动作识别数据集。它包含56,880个RGB，深度和骨骼数据的动作样本，这些数据是由Kinect v2摄像机从三个视图同时捕获的。该数据集包括40名不同的受试者在不同的室内环境中进行的60个动作类别。数据集有两种评估协议。(1) Cross-Subject (C-sub): 40名受试者分为训练组和测试组，每组20名受试者。(2) Cross-View (C-view):摄像头2和3采集的样本用于训练，剩余样本用于测试。

作为NTU RGB+D 60数据集的扩展，RGB+D 120数据集包含来自120个类别的114,480个人类行为样本，这些样本来自106个不同的主题，并分为32个子集。推荐两种官方评估方案:(1)交叉受试者(C-sub):将106名受试者分成两组，其中53名受试者样本用于训练，其余用于测试。(2)交叉集(c集):使用偶集id的样本进行训练，使用奇集id的样本进行测试。

PKU-MMD数据集包含51个类别，共20734个动作样本，由66名受试者完成，3个微软Kinect v2摄像机同时从左、中、右视点拍摄。有两种评估方案:交叉学科(C-sub)和交叉视角(C-view)。C-sub方案选取57名受试者进行训练，其余9名受试者进行测试。对于c视图协议，选择中间和右侧摄像机捕获的样本进行训练，而使用左侧摄像机捕获的样本进行测试。

N-UCLA数据集由10个类别的1494个动作样本组成，从3个Kinect v1摄像机同时以3个视图捕获。518个样本来自视图1,509个样本来自视图2,467个样本来自视图3。每个动作都招募了10个演员来表演。我们遵循Bruce et al.(2023)使用的评估方案:将三台摄像机捕获的样本依次作为测试数据，其余样本用于训练。

无人机-人数据集是基于无人机视角的人体动作识别数据集，包含119个主体的22476个动作样本，分为155个类别。评估方案有Cross-subject1(CSv1)和Cross-subject2(CSv2)两种，均选择89个受试者作为训练集，30个受试者作为测试集。

IKEA ASM数据集是一个基于家具装配的多模态多任务数据集。对于动作识别，它提供了来自371个独立装配场景的16764个带注释的动作样本，包括“Kallax Shelf Drawer”、“Lack Coffee Table”、“Lack Side Table”、“Lack TV Bench”4个部分，分为33个类别。其中，254个场景的样本作为训练集，其余作为测试集。

4.2. 实现细节

对于RGB模式，我们将片段数量𝑘设置为8，每个片段中采样的帧数𝑡设置为6。裁剪的RGB帧被调整为256 × 256的分辨率。遵循TSN中的数据增强策略(Wang et al.， 2019)，我们在训练时随机裁剪RGB帧，在测试时裁剪每帧的中心区域。实验结果默认从1个测试片段中获取。这些裁剪的区域最终被调整为224 × 224的分辨率，并用作网络的输入。RGB模式的骨干网络是使用ImageNet (Deng等人，2009)数据集预训练的ResNet50 (He等人，2016)，其中ResNet50中使用了TSM 模块(Lin等人，2022)。我们对网络进行了60次微调。对于NTU RGB+D 60、PKU-MMD、UAV-human和IKEA ASM数据集，batchsize为32，对于NTU RGB+D 120数据集，batchsize为64，对于N-UCLA数据集，batchsize为16。初始学习率设置为0.01，并在第25、40和50个epoch除以10。优化器是SGD，动量为0.9,drop - out层的dropout率为0.5。对于骨架模态，我们采用RGBPose-Conv3D (Duan et al.， 2022)中的方法，使用High-Resolution Net-W32 (HRNet-W32) (Sun et al.， 2019)提取骨架。Sparse-MSSTNet的输入数据格式为3 × 8 × 17，其中3对应于关节的x坐标、y坐标和置信度，8为时间维的大小，17为骨架的关节个数。批处理大小设置与RGB模式相同。Sparse-MSSTNet也在ImageNet数据集上进行预训练。我们以0.01的初始学习率对网络进行了40个epoch的微调，并在第25、30和35个epoch将其除以10。将优化器和动量设置为与RGB模式相同，并将丢弃率设置为0.9。所有实验使用RTX 3090 GPU进行，我们方法中的所有网络都是基于PyTorch深度学习框架构建的，服务器系统为Ubuntu18.04。

4.3. 消融研究

我们在NTU RGB+D数据集上进行了大量的消融实验，以确定最优的超参数，并验证所提出的骨架引导裁剪策略、STMEM和多模态融合方法的贡献。

每个片段的最佳采样帧数。STMEM的一个关键参数是每个片段的采样帧数(𝑡)。通常，增加𝑡允许STMEM提取更多的运动信息。为了探索最优的𝑡，我们将𝑡从2增加到8，并评估识别性能。这里我们单独使用RGB模式，如表2所示，可以看到增加𝑡确实会带来更好的性能，但是当𝑡= 6时，性能不再提高。因此，在随后的实验中，我们将𝑡固定为6。

最佳分段数:𝑘。在之前的著作中(Li et al.， 2020a;Lin et al.， 2022;Wang et al.， 2019)，增加𝑘可以使模型获得更好的识别性能。为了探索最优的𝑘，我们将𝑘从2增加到10来评估DSCNet。如表3所示，识别精度随着𝑘的增大而增大，当𝑘= 8时，性能达到瓶颈。因此，在后续的实验中，𝑘默认为8。

骨架引导分割RGB帧的策略的定量分析。为了说明裁剪策略排除了多少背景干扰，我们对多个数据集的原始分辨率和裁剪后的平均分辨率进行了计算，并计算了消除背景的比例。如表4所示，可以看出，在这些数据集上，裁剪策略消除了大部分背景。

我们方法中每个组成部分的贡献。为了验证我们的方法中提出的骨架引导裁剪策略、STMEM和多模态融合方法的具体贡献，我们在NTU RGB+ d60和120数据集上进行了广泛的消融实验。具体而言，我们在表5中提供了单独使用的每个模块和多个模块的组合的性能。

对于NTU RGB+ d60数据集，裁剪策略在C-sub和C-view测试协议上的TSM性能分别提高了3.1%和2.5%。在C-sub和C-view测试协议上，STMEM分别将TSM的性能提高了2.0%。相比之下，裁剪策略具有更高的精度增益。结合裁剪策略和STMEM, C-sub和C-view测试方案的识别准确率分别提高了4.7%和3.2%。通过融合RGB和骨架模式，我们的DSCNet在C-sub和C-view测试协议上的性能分别比TSM高5.1%和3.6%。

对于NTU RGB+ d120数据集，裁剪策略在C-sub和Cset测试协议上的TSM性能分别提高了4.6%和5.1%。在C-sub和C-set测试协议上，STMEM分别使TSM性能提高1.9%和1.7%。与NTU RGB+ d60数据集类似，裁剪策略具有更高的精度增益，并且这种优势更加明显。将裁剪策略与STMEM相结合，在C-sub和C-set测试方案上的识别准确率分别提高了5.1%和5.9%。通过融合RGB和骨架模式，我们的DSCNet在C-sub和C-set测试协议上的性能分别比TSM高5.7%和6.4%。

验证精度曲线。图4给出了不同方法的验证曲线。可以看出，借助骨架引导裁剪策略和STMEM，不仅验证精度得到了显著提高，而且收敛速度也得到了显著提高。

4.4. 在DSCNet中不需要使用密集采集骨架

为了研究密集采集骨架的使用是否会提高DSCNet的性能，我们对使用不同数量骨架框架的DSCNet模型进行了比较研究。结果如表6所示。这里我们将RGB模态𝑘的片段固定为8，但是将骨架帧的数量从4增加到全部，以评估骨架密度对识别精度的影响。可以看出，增加骨架帧的数量可以显著提高基于骨架的动作识别的性能。然而，对DSCNet最终性能的影响是最小的。当操作结果为𝑘时，DSCNet的识别精度不再得到显著提高。因此，在DSCNet中使用密集骨架是不必要的。

4.5. 与最先进方法的比较

在表7中，我们的方法与现有的基于NTU RGB+ d60数据集的单峰和多峰方法进行了比较。对于C-sub测试协议，DSCNet达到了最好的性能。对于c视图测试协议，DSCNet仅次于RGBPose-Conv3D (Duan et al.， 2022)。

表8显示了我们的方法与NTU RGB+ d120数据集上现有工作的比较。我们的DSCNet在C-sub和C-set协议方面的性能都比目前最先进的RGBPose-Conv3D (Duan et al.， 2022)高出0.3%。

表9显示了我们的方法与现有方法在PKU-MMD数据集上的比较。DSCNet实现了C-sub和C-view协议的最先进性能。

表10给出了我们的方法与N-UCLA数据集上现有工作的比较。协议View1表示视图2和3的样本用于训练，视图1的样本用于测试，其他两个测试协议遵循相同的原则。我们的DSCNet在所有三种测试协议中都优于所有现有的工作。

表11显示了我们的方法与现有方法在无人机-人类数据集上的比较。DSCNet优于大多数方法，但不如几种最先进的方法(Azmat et al.， 2023;Wang et al.， 2023)。

表12显示了我们的方法与以前的方法在IKEA ASM数据集上的比较。DSCNet略逊于vpp - f (Zhang et al.， 2023b)和基于Bounding boxes + S的PGCN (Xing & Burschka, 2022)。值得一提的是，vpp - f只使用了宜家ASM数据集的“Kallax Drawer Shelf”部分。

从以上6个数据集的对比结果可以看出，DSCNet在NTU RGB+D 60、NTU RGB+D 120、PKU-MMD和N-UCLA数据集上的识别性能达到或接近最佳。然而，在无人机-人类和宜家ASM数据集上的性能不如最佳方法。相比之下，前四个数据集的样本多为室内场景，背景相对简单。后两种数据集更具挑战性，无人机-人的样本是在室外场景下从无人机角度采集的，人的区域较小，容易受到周围无关人员的干扰。对于IKEA ASM数据集，样本中存在复杂的背景，这给人体骨骼提取带来了很大的挑战。一些方法(Azmat et al.， 2023;Wang et al.， 2023;Xing & Burschka, 2022)使用更准确的背景排除策略在无人机-人类和宜家ASM数据集上表现更好。DSCNet在这两个数据集上的表现不是很好，因为它依赖于精确的人类骨骼。为了适应无人机在室外场景中对人的捕捉，从无人机的角度来看，人的区域较小，容易受到周围无关人员的干扰。对于IKEA ASM数据集，样本中存在复杂的背景，这给人体骨骼提取带来了很大的挑战。一些方法(Azmat et al.， 2023;Wang et al.， 2023;Xing & Burschka, 2022)使用更准确的背景排除策略在无人机-人类和宜家ASM数据集上表现更好。DSCNet在这两个数据集上的表现不是很好，因为它依赖于精确的人类骨骼。为了适应复杂背景的场景，DSCNet需要结合有效的骨架筛选机制。

4.6. 计算方法的复杂度

如表13所示，我们在NTU RGB+ d120数据集上比较了DSCNet与几种最先进方法的计算复杂度和推理时间。为了进行详细比较，我们还报道了𝑘= 4和𝑘= 8,clip = 10时的实验结果。可以看出，当𝑘= 4时，识别精度已经超过了之前的大多数方法。当𝑘= 8时，我们的方法达到了最先进的性能。总的来说，我们的方法可以在更少的计算成本和推理时间下获得更好的识别性能。

5. 分析与讨论

在本节中，我们首先使用一系列混淆矩阵来展示各种动作的识别准确性，并分析哪些动作容易被彼此错误识别。随后，我们利用直方图列出了我们的方法相对于不同动作的基线的精度增益，这有助于我们确定DSCNet在各种动作类型中的主要优势。最后，我们通过可视化激活图直观地展示了我们的方法在捕获关键动作方面的能力。

5.1.不确定的行为

NTU RGB+ d60数据集上C-sub测试协议的混淆矩阵如图5所示。很明显，大多数动作被准确识别，只有两个动作的识别准确率低于90%。从混淆矩阵可以明显看出，“吃饭”最容易被误认为是“喝水”和“打电话”。这三种动作涉及类似的手臂运动和手势，唯一的区别因素是手的位置。“恶心/呕吐”最容易与“胸痛”和“头痛”混淆。这些动作都包括向前倾斜头部和抬起手臂，唯一的区别是手臂运动和头部倾斜的幅度。此外，“拍手”和“搓双手”很容易被误认为是彼此，因为它们在肢体运动上非常相似，只是手部运动的幅度不同。

PKU-MMD数据集C-sub测试协议的混淆矩阵如图6所示。很明显，大多数动作的识别准确率超过90%。识别准确率最低的四种动作分别是“挥手”、“拍拍别人的背”、“打拳/打耳光”和“摸背(背痛)”。“挥手”很容易被误认为是“自拍”和“摸头(头痛)”，因为这三个动作都是在前半部分举手，很难区分。“拍拍别人的背”很容易被误认为是“打/打别人”和“推别人”，因为这三个动作都是用一只手臂完成的双人互动动作，只是站姿和挥舞手臂的速度不同。同样，12%的“打人/扇人”错误识别样本都被识别为“推人”。“摸背(腰疼)”由于身体前倾，与“弯腰”相似，容易被误认为是“弯腰”。

总之，容易混淆的动作通常具有以下一个或多个特征。首先，相同或相似的身体姿势，只有肢体末端或运动幅度的微小差异。其次，部分共享的进程或一个操作是另一个操作的子操作。第三，在作用于同一物体时，肢体轨迹相反。这些在动作识别方面的挑战需要通过更精确和详细地捕捉肢体末端的细微运动和准确的关键运动的时间定位来克服。

5.2. 识别各种动作的精度增益

为了探索我们提出的方法对各种动作带来的准确率提升，我们分别在图7和图8中给出了NTU RGB+D 60和NTU RGB+D 120数据集的识别率增益直方图。如图7所示，与TSM相比，我们的方法提高或保持了每个动作的识别精度。准确率提高最高的前10个动作是“搓双手”(22.8%)、“玩手机/平板电脑”(17.4%)、“头痛”(12.7%)、“粉丝自我”(12.3%)、“写作”(12.1%)、“阅读”(10.8%)、“指向某物”(10.8%)、“刷牙”(10.4%)、“鼓掌”(10.4%)和“敬礼”(6.3%)。

从图8可以看出，我们的方法提高了NTU RGB+D 120数据集的大部分动作的识别准确率，准确率提高最高的前10个动作是“玩魔方”(37.4%)、“把纸团起来”(32.2%)、“做OK手势”(31.4%)、“订书钉”(28.7%)、“竖起大拇指”(27.1%)、“数钱”(26.7%)、“做胜利的手势”(23.5%)、“搓双手”(23.5%)、“在手上涂奶油”(22.5%)和“折叠纸”(22.4%)。这10个动作的准确率提升幅度都在20%以上。可以观察到，这些具有最高改进的动作容易混淆或运动幅度小。我们提出的方法中的两个关键模块增强了这些动作在空间和时间维度上的建模。具体来说，骨架引导裁剪策略去除大多数不相关的背景，使网络能够捕获更精细的运动细节，为提取空间关键信息奠定基础。STMEM对动作的每个片段进行信息聚合，以较小的计算代价提取全面的运动信息，显著增强了我们的模型在时间维度上的建模能力。

5.3. 行动区域的可视化

为了验证我们的方法在捕获关键动作方面的能力，我们使用梯度加权类活动区域(Gradient-
weighted Class Activation Mapping，Grad-CAM)可视化RGB模式的活动区域(Selvaraju et al.， 2017)。如图9所示，在大多数情况下，我们的方法可以准确定位关键动作发生的区域，但对于少数动作，特别是微妙的动作，如“拍手”、“做Ok手势”、“做胜利手势”、“数钱”、“剪纸”等，我们的方法在关键区域的位置上存在偏差。这就是为什么这些动作不能被准确识别的原因。

6. 结论

本文采用稀疏采集骨架和密集采集RGB帧作为输入，提出了一种新的动作识别网络DSCNet。我们的方法采用骨架引导的RGB帧裁剪策略去除不相关背景，结合STMEM，进一步增强了RGB模态的性能。对于稀疏的骨架数据，设计了一个Sparse-MSSTNet，以较小的计算成本实现动作识别。综合消融实验证明了各组成部分的有效性。与现有方法相比，DSCNet在室内数据集上以更低的计算成本实现了最先进的性能，但在室外数据集(如无人机-人类)上表现不佳。主要的问题是我们的方法严重依赖于骨骼数据的准确性。当骨架数据不够准确时，视频模态识别的性能将受到很大影响。在未来的工作中，我们将尝试提高骨架的精度，并筛选出不良骨架的干扰，以提高在室外数据集上的性能。此外，通过对结果的分析，我们还发现一些细微手部动作的识别准确率远低于平均水平，主要原因是现在使用的骨骼数据没有涉及手部关节。因此，在未来的工作中，我们将尝试将手部姿势整合到人体动作识别中。