论文笔记:Multi-streamGlobal–LocalMotionFusionNetworkforskeleton-based action recognition

1、创新点

(1)提出了一种融合全局和局部运动的多流框架全局-局部运动融合网络

(2)设计了一个分组图卷积(GGC)模块

(3)设计了两个模块空间自我注意模块(SS)和时间自我注意模块(TS)来提取在时空维度上的全局关系

ideas:

本文主要解决了两个问题:

(1)一个是常规的GCN所有的通道共享一个邻接矩阵,而这样会限制空间表达能力的聚合,为了解决这个问题,作者提出了用一组邻接矩阵代替原本的一个,所以提出了GGC模块。

(2)另一个是目前模型只关注局部的时空运动信息,而忽略了全局运动信息也有着重要的作用。例如,左手和右手在关节上并不相邻,但是从全局来看,在许多动作上左手右手是相关的。为了发掘全局的作用,这里在空间上提出了全局-局部融合的模块。

总结:

模型做的很漂亮,通俗易懂,一眼能看到做出的创新点在哪里,在创新中,GGC和多流对准确率提升很少,但是想法很新颖。主要的创新点在于引入了SS和TS模块。可惜作者没把代码放上来。

2、模型

(1)mode

上图为本文的模型,这里共有10个时空块,按数量4、3、3分为三个阶段,在时域上前两个阶段采用TCN模块,第三个阶段用TS模块(4.3)。在空间域上,采用了全局-局部策略,局部上采用GGC模块(2.2),全局采用SS模块(2.3)。整体来看,采用了多流策略,分别为节点,骨骼,节点运动,骨骼运动,详细的计算方式见2.4,四个数据流经过时空块后,通过一个全连接层和softmax函数后得到四个训练结果,再对这四个训练结果通过加权融合就得到最终的预测结果。

补充:Conv、BN和Relu分别表示convi - 1d、Batch Normalization和 Relu操作

2)GGC(Grouping graph convolution module)

GCN只采用单一的邻接矩阵,会限制不同通道的聚合能力,这里做出了创新采用一组邻接矩阵来代替原本只有一个的邻接矩阵,但是如果每个通道都配备独立的邻接矩阵,这样会造成冗余,这里经过实验验证,当邻接矩阵的数量为8到16时效果为最佳(4.1)。邻接矩阵的可视化见5.3,对比了不同运动模式的相关性。下图是原始的图卷积方程和分组图卷积方程的对比。

(3)SS/TS(Spatial/Temporal self-attention module)

由于标准GCNs是在预定义的人体骨骼结构上执行的,因此只能捕获相邻关节之间的局部空间特征,而忽略了非相邻关节之间的全局连接。比如拍手动作,左手和右手在关节上是不相邻的,但是从全局来看,左手和右手在这个动作是有很强相关性的。

其中:dq, dk ,dv分别是 Wq, Wk,  Wv的通道维数,

关联强度:t表示第t帧,i和j表示关节序列。

最后对嵌入的关节z做加权和。

(4)Multi-stream fusion strategy

通常多流模型是关节,骨骼,运动三流模型,这里做出了创新用关节运动,骨骼运动做出了四流模型,上图是这两种运动模型的具体表示,其实这些多流数据都是通过对关节数据的处理得到的。但是这里也是一个不错的创新点。

3、实验结果

(1)NTU-RGBD数据集

(2)NTU-RGBD-120数据集

4、消融实验

(1)GGC中分组通道的有效性

这里验证当分组图卷积的数量在8到16时性能最佳。其实看纵坐标能看出来,这个创新点其实连1%的准确率都没有提高。(画图有一手的)

(2)融合空间自注意模块的有效性

这里验证了相比于单一的图卷积,加入SS模块能有效提高准确率。(可惜没有代码)

(3)时间自注意模块的有效性

在引入了TS模块之后准确率有了很大的提升,但是违反常理的是随着TS模块的增加,准确率居然在下降,反而使用TCN准确率会提高。

(4)多流融合策略的有效性

四流模型相比于现在盛行的三流模型大概有0.5%准确率的提升,应该可以在其他模型中推广,感觉应该属于比较有影响的创新点。

5、补充实验

(1)模型的复杂度

验证自注意模型的低复杂性

(2)捕获全局运动信息的可视化

验证了全局思想的重要性。在模型中引入了自注意算子来捕捉人类骨骼数据中非相邻关节之间的关系,这是使用原始GCNs所忽略的。

(3)GGC可训练邻接矩阵的可视化

a是原始邻接矩阵,b到i是输出的可训练的多个的邻接矩阵。空间运动信息描绘在不同的可训练的邻接矩阵是多样的。具体来说,一些可训练的邻接矩阵描述了 关节之间的局部连接。例如,手和脚之间有很强的连接来识别动作,例如“穿鞋”和“脱鞋”。在图(f)中,可训练邻接矩 阵的手与手之间有很强的连接,这有助于识别“拍手”和“阅 读”;四肢和脊柱之间也有很强的联系,可以识别“跳跃”、 “驼背”、“跌倒”等一些动作。一些相邻矩阵专注于收集单 个关节和所有关节之间的全局运动关系,如图(c)和图(h)。 局部和全局特征都表明,可以通过用一些可训练的多个邻接矩 阵替换原始邻接矩阵~ A来增加捕获特征的灵活性和多样性。

(4)自注意操作的可视化

在图中,我们报告了120epoch期间不同层的可视化热图。 为了更明显地显示,我们分别选择第3层、第6层和第9层作为早期、中期和晚期的显示对象。热图由一个25 ×25矩阵生成,表示自注意操作的注意分数。在图中,每一行和每一列代表一 个身体关节,位置(i, j)的分数表示同一帧中关节i 和关节j之间的预测运动关系,其中黄色表示强运动关系,深蓝 色表示弱运动关系。在早期阶段,自注意操作仅捕获了少量关 节之间的相关性,这受到激活稀疏性的影响。随着网络层数的增加,会学习到更多关节之间的运动关系,这些关系并不局限 于人体的物理连接。这说明自注意操作可以学习到所有关节之 间的运动关系。

  • 5
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值