一、内容概要
CTR-GCN和HD-GCN均在2s-AGCN上进行改进,其基本网络架构保持不变
二、通道拓扑细化图卷积网络CTR-GCN
论文:
https://openaccess.thecvf.com/content/ICCV2021/html/Chen_Channel-Wise_Topology_Refinement_Graph_Convolution_for_Skeleton-Based_Action_Recognition_ICCV_2021_paper.html
代码:
https://github.com/Uason-Chen/CTR-GCN
时间:2021
1. 创新点
2. 相关概念介绍
(1)共享 & 非共享
A. 共享拓扑
所有的输入骨骼序列共享相同的图拓扑结构
此前骨骼动作识别大部分方法用的都是共享拓扑,但其具有一些未由骨骼连接关节点之间的关系信息可能损失的问题
B. 非共享拓扑
每个输入骨骼序列可以有不同的图拓扑结构
ps. 该模型中,由于通道特定相关性处为非共享拓扑图,其与共享拓扑图结合,得到的通道细化拓扑实质属于非共享拓扑
(2) 动态 & 非动态
3. 模型架构
(1) 网络层面
与2s-AGCN网络结构基本相同
(2) 基本块层面
在CTR-GCN基本块中,特征向量分别先后经过空间建模模块和时间建模模块。
A. 空间建模模块
该模块首先通过深度可分离卷积分成三个支路处理特征向量,其相较直接进行更加轻量化。其中CTR-GC表示通道拓扑细化图卷积,具体见后文。
B. 时间建模模块
该模块包含四个分支,每个分支包含一个1 × 1卷积以减少通道维数。前三个分支包含两个具有不同扩张率的时间卷积和一个MaxPool,最后一个分支为一个独立的1 × 1卷积。四个分支的结果最终通过直接连接结合。
(3) 卷积层面
特征向量首先分别进行通道拓扑建模模块和特征转化模块,然后在通道融合模块通过先相乘后拼接的方式综合二者结果。
此图为之前图示的另外一种表达方式,二者具体内容相同
A. 通道拓扑建模模块
B. 特征转化模块
C. 通道融合模块
(4) 图层面
论文提出的通道拓扑细化图在Shared Topology(共享拓扑)的基础上,结合Channel-Specific Correlations(通道特定相关性),构成Channel-wise Topologies(通道细化拓扑),避免了对每个通道的拓扑进行独立建模。
图中不同颜色线条对应不同通道中的拓扑结构,线条粗细表示节点的关联强度。
4. 代码解读
三、分层分解图卷积HD-GCN
论文:
https://openaccess.thecvf.com/content/ICCV2023/html/Lee_Hierarchically_Decomposed_Graph_Convolutional_Networks_for_Skeleton-Based_Action_Recognition_ICCV_2023_paper.html
代码:
https://github.com/Jho-Yonsei/HD-GCN
时间:2023
1. 创新点
(1)提出一个层次分解图(HD-Graph),以体现相同层次节点集内遥远节点之间的关系;
(2)提出一个注意力引导层次聚合模块(A-HA),以突出具有代表性的边集;
(3)提出一种六向集成方法,用于具有不同质心(CoM)的层次分解图
2. 模型架构
输入骨架通过层次分解图(HD-Graph)应用于几个边集(Set1, Set2, …)。红线为包含在相应层次边集中的边,虚线表示骨骼中未连接的边。上方方框通过注意力机制处理得到下方方框,其中红线的颜色越深,表示该边集越重要,即越能通过该边集反映这个动作。
(1) 图层面:层次分解图HD-Graph
A. 物理连接PC
将人体骨架表示为有根树,再按语义将骨骼划分至四个集合中,同一语义空间中的节点(如肘关节和膝关节,或手和脚)必须存在于相同层次节点集中。其中有根树的根节点为选取的质心节点,即包括胸部、腹部、臀部三种
A为有向邻接矩阵,包含NL个层次层,NH个层次边缘集,且 NL = NH -1。Hk表示第k个层次节点集合。Ek表示 S = {Sid, Scp, Scf} 的三个边子集的级联,其中Sid、Scp、Scf分别表示同心、向心、离心边子集。通过该构造策略,作者创建了一个具有双向和相等边的骨架图
对于Kinetics-Skeleton数据集,作者对其骨架结构进行了修改。原始数据集包含18个节点,未使用质心的腹部和臀部节点
故作者设置左髋关节节点和右髋关节节点的中点为臀部节点,胸部和臀部节点的中点为腹部节点,得到含20个节点的骨架结构
B. 全连接FC
通过连接相邻层次边集合中的所有节点,得到同一语义空间中所有节点之间的边(非同一语义空间内节点两两相互连接)
为了识别远距离关节节点(尤其是同一语义空间中远距离关节节点)之间的关系,作者将相邻层次节点集之间所有节点连接
(2) 卷积层面
层次分解图卷积包括四个并行的分支操作,其中包括三个图卷积和一个额外的边卷积。为降低复杂度,对四个操作均用线性变换
A. 空间边卷积S-EdgeConv
虽然作者提出的层次分解图定义了比传统图更有意义的节点关系,但仍然无法提取反映特征空间中所有节点之间相似性的样本关系,故引入边卷积
基于欧氏距离的k-最近邻(k-NN)构造具有局部边的图,并通过可训练参数Wedge对局部边和单位边进行聚合
B. 层次边卷积H-EdgeConv
(3) 网络层面:层次分解图卷积网络HD-GCN
HD-GCN接收骨架序列作为输入,并通过9个GCN块、FC层和softmax函数获得类别标签
现有集成方法多采用关节流、骨骼流、关节运动流、骨骼运动流这四流数据,分别由原始骨骼坐标、关节不同坐标间空间差分、关节不同时刻间时间差分、骨骼不同时刻间时间差分表示。然而模型仅利用运动数据,性能较差。因而作者提出了一种六向集成方法,替代传统的四向集成方法。
作者使用三种不同的层次分解图,每个图都用于关节和骨骼流的训练(舍弃了关节运动流和骨骼运动流)。三个层次分解图具有不同的质心节点,分别是胸部、腹部、臀部节点。由于具有三种不同图的模型应在不同方面进行训练,因此每个图由不同的边集组成。如果质心节点是腹部,则两条大腿边和两条上臂边都包含在同一个边集中,而当质心节点是胸部时,两条大腿边和两条前臂边都包含在同一个边集中
“六向集成” 中 “六向” 具体包括:
- 质心节点为胸部的关节流
- 质心节点为胸部的骨流
- 质心节点为腹部的关节流
- 质心节点为腹部的骨流
- 质心节点为臀部的关节流
- 质心节点为臀部的骨流
(4) 基本块层面:注意力引导层次聚合A-HA
注意力引导层次聚合(A-HA)由注意力引导,由代表性空间平均池(RSAP)和层次边卷积(H-EdgeConv)两个子模块组成。通过RSAP和H-EdgeConv,模型成功确定在输入特征中应该强调哪些层次边缘集和关节
A. 代表性空间平均池化RSAP
如果直接使用空间平均池化而没有任何节点提取过程,由于每个节点具有不同相邻节点数,会出现放缩偏差问题
–> RSAP在池化层之后,通过代表性节点提取表示特征
B. 层次边卷积H-EdgeConv
(用于管理通过RSAP获得的分层特征)
将每个分层特征视为一个图节点,并通过特征空间中的欧氏距离来识别应突出显示的分层特征