深度学习-论文阅读:动作结构性图卷积网络AS-GCN

过去问题:

基于关节间的固定骨架
只捕捉关节间局部的物理依赖性

改进

对ST-GCN的一个较大的改进,都是利用图卷积网络进行行为识别。
不同的是ST-GCN仅仅关注于18个关节点的骨架图上物理相邻关节点之间的关系。而本文在前者的基础上不但关注了物理相邻的关节点,而且更加注重在物理空间上不相邻关节点之间的依赖关系

解决了以下ST-GCN的缺点:
1.提取通过骨骼直接连接的关节的特征,但忽略了可能包含关键模式的遥远关节
2.例如,在走路时,手和脚紧密相关.虽然ST-GCN尝试将较宽范围的特征与分层GCN进行聚合,但在长时间扩散过程中节点特征可能会减弱.

创新点

1.引入了一个编码器结构,A-link推理模型(AIM),去捕捉特定动作的潜在依赖关系,即直接来自动作的actional links,即利用actional links 去捕捉任何结点之间的潜在关系
2.扩展了现存的骨架图来表达高阶的依赖性,即structural links,即利用 structural links 去捕捉一些 high order features
2.将两种类型的link模块结合成一个广义骨架图,进一步提出了行为-结构图卷及网络,即AS-GCN,,将行为-动作图卷积和时序卷积堆叠在一起生成一个基础构建模块,从而学习空间和时序特征进行行为识别
3.引入了一种额外的预测姿态的机制,通过捕获细节动作信息,来提高分类的准确度。
4.本文提出的AS-GCN在两个大型数据集的表现优于很多现在比较先进的方法; 在另一方面,AS-GCN也能够精确地进行未来姿态的预测;

整体结构

该网络堆叠了多个Actional-Structural卷积和时间卷积.作为一个利用骨架来进行识别的网络,
AS-GCN能够适用于各种环境.这里我们将行为识别作为主要任务,将未来姿态预测作为次要任务,
the prediction head通过保留细节特征来促进自监督学习和提升识别精度

在这里插入图片描述
上图就是从一个视频序列中利用本文中新提出的Action-links和Structural-links提取的骨架信息的一个表示。图中节点与节点之间连接的黄线表示人体物理上位置未直接相邻的节点之间存在的依赖性关系。黄线越粗,则这两个节点之间的关系就越强,而节点上红色的圈则代表当前状态下,这一关节点运动的强烈程度,红色圈越大颜色越深,则该节点当前的运动就越强烈。

在这里插入图片描述

在网络的后半部分并行为分两个分支,上面的分支功能为行为识别,下面的功能为行为预测,在预测分支中本文创新性的引入了Action-links inference moudle (AIM)。
AIM由一个编码器和一个解码器构成,通过对两个节点之间的Action-link(即就是潜在的隐性依赖关系)的推断,并以此来预测未来节点的位置,即进行未来行为预测。将上一时刻节点的关系数据放进编码器先进行编码,然后再解码器进行解码的一个过程。

Actional Links (A-links)

**思路想法:**在人做一个动作的时候,我们的动作并不一定仅仅是一些邻近结点的合作,很可能是一些在物理结构上没有联系的关节结点的互动。比如拍手,我们的两只手的关节结点在物理上并没有邻接,但是针对拍手这个动作而言,两只手的关联性是非常高的。而为了捕捉到这样的Non-local的联系,我们就引入了Actional links,去通过数据自动去发现一些潜在的有联系的节点。

训练A-links的模块称为:A trainable A-link inference module (AIM),其中主要包括两个部分:encoder 和decoder。

下图是AIM的数据流图,为了在两个关节点之间推测出A-link,关节点特征被串联起来放入AIM的自编码器结构。编码器生成A-link,解码器根据A-link和之前的动作生成未来的姿态预测。
在这里插入图片描述
作用:AIM加上之后不仅能够对未来的行为进行预测,而且能够有效的提高行为识别的准确率(猜测应该是反向训练过程中起的作用)

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
时空卷积神经网络(Space-Time Graph Convolutional Network,简称ST-GCN)是一种用于处理时空数据的神经网络模型。它主要应用于视频动作识别、姿态估计等任务,能够有效地从连续视频序列中学习时空特征。 ST-GCN的核心思想是将视频序列抽象为时空结构。在时空中,每个节点代表一个视频帧,节点之间的边表示它们之间的时序关联关系。通过构建时空,ST-GCN能够捕捉到视频中相邻帧之间的时序信息。 ST-GCN通过两个关键的操作来处理时空。首先是卷积操作,它通过聚合相邻帧的时序信息来更新每个节点的特征表示。这种卷积操作可以有效地传播并整合时序信息,从而将时空关系编码到节点的特征中。 其次是1D卷积操作,它在每个节点上进行,用于进一步提取节点的时序特征。通过多个1D卷积层的叠加,ST-GCN可以逐渐抽象出更高级别的时序特征。 最后,ST-GCN会将最终的表示传递给分类器进行动作识别或其他任务。分类器可以是全连接层、支持向量机等,用于从抽取的时空特征中预测视频的标签。 总结来说,ST-GCN是一种专门用于处理时空数据的神经网络模型。它通过构建时空,并通过卷积和1D卷积操作来抽取视频序列中的时序特征。ST-GCN在视频动作识别等任务中取得了较好的性能,对于时空关联关系的建模具有较强的能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值