2S-AGCN翻译

最新推荐文章于 2024-04-15 09:36:28 发布

zzzzz忠杰

最新推荐文章于 2024-04-15 09:36:28 发布

阅读量1.9k

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_43889128/article/details/109129845

版权

笔记专栏收录该内容

75 篇文章 3 订阅

订阅专栏

摘要
在基于骨架的动作识别中，将人体骨架建模为时空图的图形卷积网络（GCNs）取得了显著的性能。然而，在现有的基于GCN的方法中，图的拓扑结构是手工设置的，并且在所有层和输入样本上都是固定的。这可能不是最佳的分层GCN和不同样本的行动识别任务。另外，现有的方法很少研究骨骼数据的二阶信息（骨骼的长度和方向），这对动作识别更具信息性和区分性。在这项工作中，我们提出了一个新的双流自适应图卷积网络（2s-AGCN），用于基于骨骼的动作识别。模型中的拓扑结构可以通过BP算法以端到端的方式统一学习或单独学习。这种数据驱动的方法增加了图形构造模型的灵活性，并具有更大的通用性，以适应不同的数据样本。此外，本文提出了一种双流框架来同时对一阶和二阶信息进行建模，显著提高了识别精度。在两个大型数据集NTU-RGBD和KineticsSkeleton上进行的大量实验表明，我们的模型在性能上超过了最新水平，具有显著的优势。

基于骨架数据的动作识别方法因其对动态环境和复杂背景的适应性强而受到广泛的研究和关注[31,8,6,27,22,29,33,19,20,21,14,13,23,18,17,32,30,34]。传统的基于深度学习的方法将骨骼手动构造为关节坐标向量序列[6，27，22，29，33，19，20]或伪图像[21，14，13，23，18，17]，然后将其输入RNN或CNN以生成预测。然而，将骨骼数据表示为向量序列或二维网格无法完全表达相关关节之间的依赖关系。骨骼在非欧几里德空间中自然地被构造成一个图，关节作为顶点，它们在人体中的自然连接作为边。以往的方法不能充分利用骨架数据的图结构，很难推广到任意形式的骨架。近年来，图卷积网络（GCNs）将卷积从一幅图像推广到另一幅图，已成功地应用于许多领域[16,7,25,1,9,24,15]。对于基于骨架的动作识别任务，Yan等人[32]首先应用GCNs对骨骼数据进行建模。它们根据人体关节的自然连接构造空间图，并在连续帧中添加相应关节之间的时间边。提出了一种基于距离的采样函数来构造图卷积层，并将其作为基本模块来构造最终的时空图卷积网络（ST-GCN）。

然而，ST-GCN中的图形构造过程有三个缺点：（1）ST-GCN中使用的骨架图是启发式预定义的，只表示人体的物理结构。
因此，它不能保证对动作识别任务是最优的。例如，双手之间的关系对于识别诸如“拍手”和“阅读”这样的类非常重要，但是ST-GCN很难捕捉到双手之间的依赖关系，因为它们在预定义的基于人体的图形中彼此相距很远。（2） GCNs的结构是分层的，不同层次包含多级语义信息。然而，ST-GCN中的AP12026图的拓扑结构在所有层上都是固定的，缺乏对所有层中包含的多级语义信息进行建模的灵活性和能力；（3）一个固定的图结构可能对不同动作类的所有样本都是最优的。像“擦脸”、“摸头”这样的课，手和头之间的联系应该更紧密一些，而其他一些班，如“跳起来”、“坐下来”就不行了。这一事实表明，图结构应该是数据依赖的，然而，这在ST-GCN中不受支持。

为了解决上述问题，本文提出了一种新的自适应图卷积网络。它将两类图参数化，其结构与模型的卷积参数一起训练和更新。一种类型是全局图，它表示所有数据的共同模式。另一种类型是单独的图，它表示每个数据的唯一模式。两种类型的图分别针对不同的层次进行了优化，能够更好地适应模型的层次结构。这种数据驱动的方法增加了图形构造模型的灵活性，并具有更大的通用性，以适应不同的数据样本。
ST-GCN中另一个值得注意的问题是，附加到每个顶点的特征向量只包含关节的二维或三维坐标，这可以看作是骨骼数据的一阶信息。然而，代表两个关节之间骨骼特征的二阶信息没有被利用。通常情况下，骨骼的长度和方向对于动作识别来说更具信息性和区分性。为了充分利用骨骼数据的二阶信息，将骨骼的长度和方向表示为从源关节指向目标关节的向量。与一阶信息相似，将向量输入自适应图卷积网络，以预测动作标签。此外，本文还提出了一种双流结构来融合一阶和二阶信息，以进一步提高性能。
为了验证所提出模型的优越性，即双流自适应图卷积网络（2s-AGCN），在两个大型数据集：NTU-RGBD[27]和kineticskeleton[12]上进行了大量的实验。我们的模型在两个数据集上都达到了最先进的性能。
本文的主要贡献体现在以下三个方面：（1）提出了一种自适应图卷积网络，以端到端的方式自适应地学习不同GCN层和骨架样本的图的拓扑结构，能够更好地适应GCN的动作识别任务和层次结构。（2）骨架数据的二阶信息被显式地表达出来，并与一阶信息采用双流结构相结合，显著提高了识别性能。（3）在两个用于基于骨架的动作识别的大规模数据集上，提出的2s-AGCN比现有的研究成果有了很大的提高。该代码将发布，以备将来工作和促进沟通1。

zzzzz忠杰

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
2S-AGCN翻译

摘要在基于骨架的动作识别中，将人体骨架建模为时空图的图形卷积网络（GCNs）取得了显著的性能。然而，在现有的基于GCN的方法中，图的拓扑结构是手工设置的，并且在所有层和输入样本上都是固定的。这可能不是最佳的分层GCN和不同样本的行动识别任务。另外，现有的方法很少研究骨骼数据的二阶信息（骨骼的长度和方向），这对动作识别更具信息性和区分性。在这项工作中，我们提出了一个新的双流自适应图卷积网络（2s-AGCN），用于基于骨骼的动作识别。模型中的拓扑结构可以通过BP算法以端到端的方式统一学习或单独学习。这种数据驱
复制链接

扫一扫