MSST-RT: Multi-Stream Spatial-Temporal Relative Transformer for Skeleton-Based Action Recognition
Abstract
现存问题:图卷积的感受野有限,缺乏远程依赖。
本文提出时空相对转换器 (ST-RT) 来克服这些缺陷。通过引入中继节点,ST-RT避免了变压器架构,打破了空间维度固有的骨架拓扑和时间维度骨架序列的顺序。此外,挖掘不同尺度运动中包含的动态信息。最后,分别将从四种骨架序列中提取时空特征的四个ST-RT进行融合,形成最终模型、多流时空相对变压器(MSST-RT),以提高性能。
1. Introduction
图卷积网络(GCN)存在的缺陷:1)物理上未直接连接的关节;2)忽略长程依赖;3)忽略不同尺度的运动信息。
本文提出了一种具有轻量级transformer克服缺点1)2),并将其称为相对transformer。相对transformer基于空间骨架的架构,构建两个远距离关节和传播信号之间的桥梁。在时间维度上捕获两个远距离帧之间的远程交互。因此,该模型被称为时空相对transformer(ST-RT)。
对于3),本文提出了一种有效的动态表示,它融合了三种不同的运动和原始位置,以从 ST-RT 中的骨架序列中获取更丰富的信息。
MSST-RT 的整体架构如下图所示:
本文主要贡献:
1)提出包含四个 ST-RT 的 MSST-RT 模型。每一个ST-RT都从相应的骨架序列中提取特征,相互补充。MSST-RT 避免了递归和图卷积,完全依赖于相对变换器机制来学习长距离依赖。
2)多尺度动态表示 (DR) 融合了来自一个骨架序列的各种运动特征。
3)设计了一个轻量级的相对transformer模块,用于空间和时间建模。空间维度上,引入了一个空间相对transformer模块(SRT)来建立远程依赖,同时保持原始骨架拓扑。时间维度上,时间相对transformer模块(TRT)研究了非相邻帧之间的远程交互,骨架序列的顺序保持不变。
2. Background
2.1. Feed-Forward Neural Network in the Encoding
除了注意力层之外,编码器还包含前馈神经网络,它由两个线性变换和一个 ReLU 激活组成:
该网络将从多头注意力获得的细化向量投影到更大的空间中,以提高捕获信息的能力。在相对transformer网络中也用到了。
4. Multi-Stream Spatial–Temporal Relative Transformer Network (MSST-RT)
相对transformer可以保持图的拓扑结构,复杂度较低。提出的多流时空相对变压器网络(MSST-RT)由四个时空相对变压器网络(STRT)组成。四种骨架序列,包括10个采样帧的关节序列、20个采样帧的关节序列、10个采样帧的骨序列和20个采样帧的骨序列(如图1所示)。它们被馈送到四个 ST-RT 中进行特征提取、融合和预测。
ST-RT模型架构如图 2 所示。由动态表示 (DR)、空间相对transformer (SRT) 和时间相对transformer(TRT) 三个模块组成。同时,每个相对transformer模块包含三个节点更新块,每个块被细分为两个子块:关节节点更新块和中继节点更新块。前馈神经网络 (FFN) 在空间和时间相对转换器中都连接到它们后面。
4.1. Dynamics Representation (DR)
在动作识别中,总是采用时间差运算进行运动提取,鉴于动作中的显著运动变化,结合不同的尺度运动来模拟动作的时间信息,如图3所示。该操作提高了网络的泛化能力,因为固定运动侧重于不同的运动范围,而自适应运动侧重于不同的持续时间。
本文将原始序列 Iorigin 划分为 T 个相等的片段,并从每个片段中随机采样一帧以形成一个新的序列 Inew按顺序。原始序列Iorigin要么是关节序列,要么是骨序列。I表示单帧中所有关节点的行位置。
运动是通过取两帧之间每个关节节点 Joti (Jnt i ) 的差值来计算的:Jot i 表示 Iorigin 帧 t 中的第 i 个关节节点,Jnt i 表示 Inew 帧 t 中的第 i 个关节节点。自适应运动Ima是Inew中连续帧之间的差异,它表示不等视频中不同尺度的运动信息:
其中 ma 表示帧 t 在新序列中的自适应运动。请注意,尽管差异在 Inew 中的相邻帧之间,但这两个帧之间的距离取决于它们 Iorigin 的位置,它与骨架序列的长度互连。因此,每个骨架序列根据长度获得自适应尺度运动。
此外,有两种类型的固定运动:短尺度 Ims 和长尺度 Iml。该函数表示如下:
其中 It ms 表示原始序列中帧 t 的短运动,It ml 是原始序列中帧 t 的长运动。f 表示原始视频中的帧数。最后,将行位置和三种不同类型的运动嵌入到高维张量中,即Ft、Ft ma、Ft ms和Ft ml,并将它们连接起来。
其中 Zti 、 Zt 和 Z 分别是帧 t 的第 i 个关节节点、第 t 帧和新序列的动态表示。嵌入块由两个卷积层和两个激活层组成,如图3所示。这些块从2D/3D位置和运动张量中提取特征。
4.2. Spatial Relative Transformer (SRT)
4.2.1. Architecture
与标准transformer不同,本文将虚拟节点添加到骨架的图中作为输入。虚拟节点从每个关节节点收集全局信息,并将信息分散到所有关节节点;将其命名为空间中继节点。对于关节节点和初始中继节点,有两个对应的连接:固有连接和虚拟连接。
Spatial Inherent Connections
如图4a所示,本文建立了所有相邻关节的固有连接,这些关节具有骨骼连接,以保持骨骼中固有的图拓扑。这种与先验知识的联系允许每个关节节点从其相邻关节节点收集本地信息。同时,它们使关节能够从邻居中获得比不相邻的关节更直接的信息,这与一般感知一致:相邻关节通常更重要。具有 n 个关节节点的骨架图具有 n-1 个固有连接。
Spatial Virtual Connections
每个关节节点与空间中继节点之间的连接在虚拟连接后命名(见图4a)。通过虚拟连接,初始中继节点捕获全局组合关系;因此,每个关节节点都可以获取非相邻关节节点之间的信息。具有 n 个关节节点的骨架图有 n 个虚拟连接。固有连接和虚拟连接的组合使得相对transformer同时获得局部和全局信息。与标准transformer相比,连接的数量包括固有连接和虚拟连接。因此,该模型以较低的计算效率和内存开销建立了远程依赖。
4.2.2. Implementation of SRT
通过交替更新关节节点和中继节点,空间相对transformer将捕获输入图的所有局部和非局部信息。
4.3. Temporal Relative Transformer (TRT)
Temporal Inherent Connections
在时间维度上,连续帧中的相同关节被视为模型的输入序列。除了相邻使用的相同关节节点外,第一帧和最后一帧中的关节节点也被连接,构成环形结构,如图5d所示。由 n 个节点组成的序列包含不同的连接。
Temporal Virtual Connections
时间相对transformer可以通过固有连接来捕获相邻帧之间的关系,远程关系由虚拟连接捕获。这意味着语义组合分为固有连接和虚拟连接,使模型能够在没有大量预训练的情况下工作。此外,它将连接的数量从 n2 减少到 2n,其中 n 是骨架序列长度。
4.3.1. Implementation of TRT
通过交替更新所有帧上的中继节点和相同的联合节点,时间相对transformer最终捕获输入帧序列中的所有关系。
4.4. Detail of SRT and TRT
给定一个形状为 (B, C, V, T) 的输入张量,其中 B 是批量大小的数量,C 是动态表示的通道大小,V 是骨架中的关节节点数,T 是新序列中的帧数。如图6所示,将T维移动到B维,得到SRT模块中的新形状(B × T, C, V, 1),将V维移动到B维,得到TRT模块中的新形状(B × V, C, T,1)。前者独立地在每一帧上实现transformer,而后者沿时间维度对每个关节分别应用transformer。
在骨架中,每个关节节点通常具有不相等数量的相邻节点。为了解决这个问题,将零填充到相邻节点小于 A 的节点。A 表示相邻节点的最大数量。这样就获得了一个相邻节点矩阵 Ma ∈ RN×A,其中 N 表示一个骨架中的关节节点数。该操作仅在 SRT 模块中。由于这些填充节点是没有意义的,在 SoftMax 操作之前使用掩码,因此注意力机制避免了它们。
另外,使用 Nh 个头的多头注意力来获得更丰富的信息。注意的公式转化为以下形式:
其中Q ', K ', V '为输入矩阵,WQ i, WK i, WV i为可学习参数矩阵。di k为headi的K通道维数。
5. Experience
5.1. Ablation Study
5.1.1. The Effect of Different Normalization Methods
实验结果表明,批量归一化提供了更快的训练时间和更好的性能。
5.1.2. The Effect of Dynamics Representation with Different Combination
每个运动中捕获的信息都可以补充其他两个运动。与短运动相比,长运动包含更丰富的动态信息。
实验结果表明,该模型在采样 20 帧时达到了 86.46% 的最佳性能。
将网络与不同采样帧相结合,ST-RT(Seg = 10 ; Seg = 20)优于其他组合为87.48%,这个最佳参数应用于 MSST-RT。
5.1.3. The Effect of Number of Layers and Multi-Heads in ST-RT Model
考虑到参数数量和准确性,所提出的模型的层数和头分别设置为 3 和 8。
5.1.4. The Effect of Dynamics Representation with Different Combination.
具有不同流数的MSST-RT不同变体的速度和准确性。关节流具有与骨流相似的计算成本。计算成本随着帧数的增加而增加。在具有两个流的变体中,“ST-RT(s3+s4)”实现了最佳性能,略低于 MSST-RT,计算成本是 MSST-RT 的一半。因此,如果担心计算成本,则可以减少流数。
6. Conclusions
本文提出了相对transformer。这弥补了标准transformer在保持骨架固有拓扑结构的同时的不足,显著降低了计算复杂度。