ms-g3d翻译

最新推荐文章于 2024-05-14 16:44:37 发布

zzzzz忠杰

最新推荐文章于 2024-05-14 16:44:37 发布

阅读量1.2k

点赞数 1

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_43889128/article/details/109525164

版权

笔记专栏收录该内容

75 篇文章 3 订阅

订阅专栏

摘要

时空图已被基于骨骼的动作识别算法广泛用于模拟人类动作动力学。为了从这些图形中捕获强大的运动模式，远程和多尺度上下文聚合以及时空依赖建模是功能强大的特征提取器的关键方面。但是，现有方法在实现（1）多尺度算子下的无偏远距离联合关系建模和（2）用于捕获复杂的时空依存关系的无障碍跨时空信息流方面存在局限性。在这项工作中，我们提出（1）解开多尺度图卷积的简单方法，以及（2）名为G3D的统一时空图卷积算子。所提出的多尺度聚合方案消除了有效邻域建模中不同邻域中节点的重要性。提出的G3D模块利用密集的跨时空边缘作为跳过连接，以便跨时空图直接传播信息。通过结合这些建议，我们开发了一个功能强大的特征提取器MS-G3D，基于该模型，我们的模型1在三个大型数据集上的性能优于先前的最新方法：NTU RGB + D 60，NTU RGB + D 120，和Kinetics Skeleton 400。

1.简介

人体动作识别是许多实际应用中的重要任务。尤其是，基于骨骼的人体动作识别涉及从人体的骨骼表示而不是原始的RGB视频预测动作，最近的工作[50，33，32，34，21，20，54，35]中看到的重要结果有证明了它的优点。
与RGB表示法相反，骨架数据仅包含人类关键关节的2D [50，15]或3D [31，25]位置，从而提供了高度抽象的信息，同时也没有环境噪声（例如背景杂波，光线（例如环境，衣服），让动作识别演算法专注于动作的强大功能。
较早的基于骨骼的动作识别方法将人的关节视为一组独立的特征，它们通过手工制作的[42，43]或已习得的[31，6，48，54]聚合来对空间和时间关节相关性进行建模特征。但是，这些方法忽略了人类关节之间的固有关系，而人体关节之间的固有关系最好用以关节为节点的人体骨骼图和其自然连通性（即“骨骼”）为边缘来捕获。
因此，最近的方法[50、19、34、35、32]用骨骼时空图对动作的关节运动模式进行建模，该骨骼时空图是在不同时间步长上承载信息的一系列不相交和同构的骨骼图。时空维度。
为了从骨架图上进行可靠的动作识别，理想的算法应该超越局部关节的连通性，并提取多尺度结构特征和远距离依赖关系，因为在结构上分开的关节也可能具有很强的相关性。许多现有方法是通过对骨架邻接矩阵的高阶多项式执行图卷积[17]来实现的：从直觉上讲，乘幂邻接矩阵确定每对节点之间的步数，步长与功率相同；因此，邻接多项式通过使遥远的近邻可达，从而增加了图卷积的接收场。但是，此公式存在偏权重问题，在无向图上存在循环游走意味着边权重将偏向更近的节点，而不偏向其他节点。在骨架图上，这意味着较高的多项式阶数只能有效地捕获来自遥远关节的信息，因为聚合特征将由局部身体部位的关节主导。这是一个严重的缺陷，限制了现有多规模聚合器的可伸缩性。
鲁棒算法的另一个理想特性是能够利用复杂的跨时空联合关系进行动作识别。然而，为此，大多数现有方法[50、33、19、32、21、34、18]部署交织的仅空间模块和仅时间模块（图1（a）），类似于因式分解3D卷积[30]。，39]。一种典型的方法是首先使用图卷积在每个时间步提取空间关系，然后使用递归[19、34、18]或一维卷积[50、33、21、32]层对时间动力学建模。尽管这种分解可以进行有效的远程建模，但它阻碍了跨时空的直接信息流，无法捕获复杂的区域时空联合依存关系。例如，“站立”动作经常在空间和时间上同时发生上半身和下半身的运动，其中上半身的运动（向前倾斜）与下半身的未来运动（站立）紧密相关。通过分解模型可能无法有效地捕获做出预测的这些强烈提示。
在这项工作中，我们从两个方面解决了以上限制。首先，我们提出了一种新的多尺度聚合方案，该方案通过消除更远和更近邻域之间的冗余依赖性来解决偏重加权问题，从而在多尺度聚合下解开它们的特征（如图2所示）。这导致功能更强大的多尺度运算符可以对关节之间的关系建模，而无需考虑它们之间的距离。其次，我们提出G3D，这是一种新颖的统一时空图卷积模块，可以直接对跨时空联合依赖进行建模。 G3D通过引入跨“ 3D”时空域的图边缘作为无障碍信息流的跳过连接来实现此目的（图1（b）），从而大大促进了时空特征学习。值得注意的是，尽管引入了额外的边缘，但我们提出的解缠结聚合方案在时空中使用多尺度推理来增强G3D（图1（c）），而不受偏重问题的影响。由此产生的功能强大的特征提取器（MSG3D）构成了我们最终模型架构的构建块，该模型在三个大型骨架动作数据集上的性能优于最新方法：NTU RGB + D 120 [25]，NTU RGB + D 60 [ 31]和Kinetics Skeleton 400 [15]。这项工作的主要贡献概括如下：（i）我们提出了一种纠缠的多尺度聚合方案，该方案消除了来自不同邻域的节点特征之间的冗余依赖关系，从而使强大的多尺度聚合器可以有效地捕获人体骨骼上的全图联合关系。。
（ii）我们提出了一个统一的时空图卷积（G3D）运算符，该运算符可促进跨时空的直接信息流，以进行有效的特征学习。
（iii）将解缠结的聚合方案与G3D集成在一起可以提供功能强大的特征提取器（MS-G3D），该提取器具有跨空间和时间维度的多尺度接收场。时空中特征的直接多尺度聚合进一步提高了模型性能。

2.相关工作

2.1。图结构的神经网络。

体系结构。为了从任意结构的图形中提取特征，已经开发并广泛研究了图形神经网络（GNN）[5、17、3、2、10、40、49、1、7、11、22]。最近提出的GNN可以大致分为频谱GNN [3、11、22、13、17]和空间GNN [17、49、10、51、41、1、45]。频谱GNN将输入图形信号与图形傅立叶域中的一组学习滤波器进行卷积。然而，由于本征分解的要求和固定邻接的假设，它们在计算效率和可推广性方面仅限于新图。相反，空间GNN通常通过（1）选择具有邻域函数的邻居（例如，相邻节点）对每个节点执行逐层更新；（2）将所选邻居及其本身的特征与聚合函数合并（例如均值合并）；（3）将激活的转换应用于合并的要素（例如MLP [49]）。在不同的GNN变体中，图卷积网络（GCN）[17]最初是作为局部频谱卷积的一阶近似引入的，但其作为均值邻域聚合器的简单性[49，46]迅速导致了许多后续的空间GNN架构 [49，1，45，7]和涉及图结构化数据[44，47，52，50，33，34，21]的各种应用程序将其视为空间GNN基线。这项工作适应GCN中的逐层更新规则。
多尺度图卷积。 还提出了多尺度空间GNN来捕获来自非本地邻居的特征。 [1，19，21，45，24]使用图邻接矩阵的高阶多项式来聚合来自远程邻居节点的特征。截断块Krylov网络[29]同样将邻接矩阵提高到
多尺度图卷积。还提出了多尺度空间GNN来捕获来自非本地邻居的特征。 [1，19，21，45，24]使用图邻接矩阵的高阶多项式来聚合来自远程邻居节点的特征。截断块Krylov网络[29]类似地将邻接矩阵提高到更高的幂，并通过来自不同隐藏层的密集特征级联获得多尺度信息。
LanczosNet [24]对邻接矩阵采用低秩逼近，以加快大图上的指数运算。如第1节所述，我们认为邻接权重可能会由于权重偏差而对远程建模产生不利影响，因此我们提出的模块旨在通过解散的多尺度聚合器解决这一问题。

2.2。基于骨骼的动作识别

早期基于骨骼的动作识别方法[42、6、31、36、43、48、54、54]专注于下游分类器的手工特征和联合关系，而忽略了人体重要的语义连通性。通过构建时空图并直接对与GNN的空间关系进行建模，最近的方法[50、19、8、21、8、33、32、34、18]获得了显着的性能提升，表明了语义人类骨架的必要性用于行动预测。
图卷积的早期应用是ST-GCN [50]，其中将空间图卷积和交织的时间卷积一起用于时空建模。李等人的并发工作。 [19]提出了一种类似的方法，但它通过将骨架邻接提高到更高的幂而特别引入了多尺度模块。
AS-GCN [21]还使用邻接动力进行多尺度建模，但它还会生成人为姿势以增强空间图卷积。时空图路由（STGR）网络[18]使用逐帧注意和全局自注意机制为骨架图添加了额外的边缘。类似地，2s-AGCN [33]引入具有自注意力的图形自适应性以及自由学习的图形残差掩码。它还使用具有骨架骨骼特征的两流合奏来提高性能。
DGNN [32]同样利用了骨骼特征，但是它通过交替的空间聚集方案同时更新了关节和骨骼特征。注意，这些方法主要集中在空间建模上。相反，我们提出了一种统一的方法来直接跨时空捕获复杂的联合相关性。
另一个相关的工作是GR-GCN [8]，它在骨架图序列上每三个帧合并，并在相邻帧之间添加稀疏的边缘。尽管GRGCN还部署了跨时空边缘，但我们的G3D模块具有几个重要区别：（1）G3D中的跨时空边缘遵循语义人的骨架，这自然比稀疏的，单一大小的，更具解释性和更可靠的表示形式适合GR-GCN中的所有图形。
基础图也更容易计算。（2）GR-GCN仅在相邻帧之间具有跨时空边缘，这使其无法推理超出三个帧的有限时间范围。（3）G3D可以同时利用不同的窗口大小和膨胀从多个时间上下文中学习，这在GR-GCN中没有解决。

3.1模型

图卷积网（GCN）。在要素X和图形结构A定义的骨架输入上，可以在时间t将GCN的分层更新规则应用于要素，如下所示：
公式（1）
其中〜A = A + I是具有添加的自环以保持身份特征的骨架图，〜D是〜A的对角度矩阵，而（·）是激活函数。术语t可以直观地解释为来自直接邻域和激活的线性层的近似空间平均特征聚合。

3.3 G3D：统一的时空建模

大多数现有工作将骨架动作视为一系列不相交的图，其中特征是通过仅空间（例如GCN）和仅时间（例如TCN）模块提取的。我们认为，这种因式分解对于捕获复杂的时空联合关系不太有效。显然，如果一对节点之间存在牢固的连接，则在逐层传播期间，该对节点应包含彼此的重要部分以反映这种连接[50、33、34]。但是，随着信号通过一系列本地聚合器（类似GCN和TCN）在时空中传播，由于冗余信息是从越来越大的时空接收场中聚合而来的，因此信号被削弱了。如果人们观察到GCN不会执行加权聚合来区分每个邻居，则问题将更加明显。
跨时空跳过连接。 为了解决上述问题，我们提出了一种更合理的方法来允许跨时空跳过连接，该连接很容易在时空图中以跨时空边缘进行建模。
让我们首先考虑输入图序列上大小为τ的滑动时间窗，在每个步骤上，获得时空子图G（τ）=（V（τ），E（τ）），其中V（τ） = V 1∪…∪Vτ是窗口中τ帧上所有节点集的并集。初始边缘集E（τ）通过将Ã拼接到块邻接矩阵Ã（τ）中来定义，其中
公式（5）
直观地讲，每个子矩阵[Ã（τ）] i，j =Ã表示通过在帧j上外推帧方向的空间连通性（[Ã（τ ）] i，i对于所有i）到时域。
因此，G（τ）内的每个节点在所有τ帧上紧密连接到它自己及其1跳空间邻居。我们可以使用X上的相同滑动窗口（零填充）轻松构造X（τ）∈R T×τN×C，以构造T窗口。
使用式如图1所示，我们得出第t个时间窗口的统一时空图卷积算子：
公式（6）
扩大的Windows。 上述窗口构造的另一个重要方面是框架不必相邻。可以通过每d帧选择一个帧并重用相同的时空结构Ã（τ）来构造具有τ帧和扩张率d的扩张窗口。类似地，我们可以获得节点特征X（τ，d）∈R T×τN×C（如果省略，则d = 1）并按式进行分层更新。 6.扩张的窗口允许更大的时间接收场而不增大Ã（τ）的大小，这类似于扩张的卷积如何保持恒定的复杂性[53]。
多尺度G3D。 我们还可以将建议的解缠结多尺度聚合方案（等式4）直接集成到G3D中，以便在时空域中进行多尺度推理。因此，我们从公式得出MS-G3D模块。 6为：
公式（7）
其中Ã（τ，k）和D̃（τ，k）分别类似于Ã（k）和D̃（k）定义。值得注意的是，我们提出的解缠结聚合方案是对该统一运算符的补充，因为G3D因时空连接而增加的节点度可能会导致偏重加权问题。
讨论。 我们对G3D进行了更深入的分析，如下所示。（1）它类似于经典的3D卷积块[38]，其时空接受场由τ，d和Ã定义。（2）与3D卷积不同，G3D的参数（·）从Θ（·）开始的计数与τ或| E（τ）|无关，因此通常不容易与大τ过度拟合。（3）G3D中密集的跨时空连接需要对τ进行权衡，因为更大的τ值会带来更大的时间接收场，但由于更大的直接邻域而以更通用的特征为代价。另外，较大的τ意味着平方大的τ（τ），因此在多尺度聚合中将进行更多的运算。另一方面，较大的扩张d以时间分辨率（较低的帧速率）为代价带来较大的时间覆盖。因此，τ和d必须仔细平衡。（4）G3D模块旨在捕获复杂的区域时空，而不是由因数分解模块更经济地捕获远距离依赖关系。因此，当G3D模块使用远程，因子分解的模块进行扩展时，我们将观察到最佳性能，我们将在下一部分中进行讨论。

3.4。模型架构

总体架构。 最终的模型架构如图3所示。在高层上，它包含一堆r个时空图卷积（STGC）块，以从骨架序列中提取特征，然后是全局平均池化层和softmax分类器。每个STGC块均部署两种类型的路径，以同时捕获复杂的区域时空联合相关性以及远程时空相关性：（1）G3D路径首先构造时空窗口，在其上执行解缠结的多尺度图卷积它们，然后使用一个完全连接的层折叠它们以进行窗口特征读取。额外的虚线G3D路径（图3（b））表明该模型可以同时从多个时空上下文中学习，且具有不同的τ和d。（2）分解路径通过远程，仅空间和仅时间的模块增强了G3D路径：第一层是多尺度图卷积层，能够对具有最大K的整个骨架图进行建模；然后是两个多尺度时间卷积层，以捕获扩展的时间上下文（在下面讨论）。来自所有路径的输出被汇总为STGC块输出，在典型的r = 3块体系结构中，它们分别具有96、192和384个特征通道。批归一化[14]和ReLU添加到除了最后一层以外的每一层末尾。除第一个块外，所有STGC块均使用步幅2的时间转换和滑动窗口对时间维度进行下采样。
多尺度时间建模。 G3D所使用的时空窗口G（τ）本身是一个封闭的结构，这意味着G3D必须随附时间模块以进行跨窗口信息交换。许多现有工作[50、18、33、32、21]在整个体系结构中使用具有固定内核大小k t×1的时间卷积进行时间建模。作为我们多尺度空间聚合的自然扩展，我们通过多尺度学习来增强香草时间卷积层，如图3（c）所示。为了降低由于额外分支而产生的计算成本，我们部署了瓶颈设计[37]，将内核大小固定为3×1，并使用不同的膨胀率[53]而不是将较大的内核用于较大的接收场。我们还使用残差连接[12]来促进训练。
自适应图。 为了提高执行均质邻域平均的图卷积层的灵活性，我们将受[33，32]启发的简单易学，不受约束的图残差掩模A res添加到每个Ã（k）和Ã（τ，k）中，以增强，减弱，动态添加或删除边缘。例如，等式。 4已更新为、
公式（8）
res初始化为具有零附近的随机值，并且每个k和τ都不同，从而允许每个多尺度上下文（空间或时空）选择最适合的蒙版。还应注意，由于A res已针对所有可能的动作进行了优化，这些动作可能具有用于特征传播的不同最佳边缘集，因此可以预期会进行较小的边缘校正，并且在图形结构存在重大缺陷时可能不足。特别是，A res仅部分缓解了加权加权问题（请参见第4.3节）。
联合骨两流融合。受到[33、32、34]中的双向方法的启发，以及将骨骼和关节可视化可以帮助人类识别骨骼动作的直觉，我们使用了双向算法框架，其中使用初始化的骨骼特征训练具有相同架构的单独模型作为远离身体中心指向的相邻关节的矢量差。将来自关节/骨骼模型的softmax得分相加以获得最终预测得分。由于骨架图是树，因此我们在身体中心添加零骨矢量，以从N个关节获得N根骨骼，并将A重复用于连接性定义。

4.实验

4.1。数据集
NTU RGB + D 60和NTU RGB + D120。NTURGB + D 60 [31]是一个大型动作识别数据集，包含从40个不同的对象和3个不同的摄像机视角捕获的60个动作类的56,578个骨架序列。每个骨架图都包含N = 25个人体关节作为节点，并将其在空间中的3D位置作为初始特征。
动作的每一帧都包含1到2个主题。作者建议在两种设置下报告分类的准确性：（1）跨主题（X-Sub），其中将40个主题分为训练和测试组，分别得出40,091和16,487个训练和测试示例。（2）交叉视图（X-View），从摄像机1收集的所有18,932个样本都用于测试，其余37,646个样本用于训练。 NTU RGB + D 120 [25]扩展了NTU RGB + D 60，在60个额外的动作类别上增加了57,367个骨架序列，在120个类别中从106个不同的主体和32个不同的相机设置中捕获了113,945个样本。作者现在建议将Cross-View设置替换为CrossSetup（X-Set）设置，其中从一半相机设置中收集的54,468个样本用于训练，其余59,477个样本用于测试。在跨学科中，使用来自53个主题的选定组的63,026个样本进行训练，其余50,919个样本用于测试。
Kinetics Skeleton400。使用OpenPose [4]姿势估计工具箱，从Kinetics 400视频数据集[15]改编了Kinetics Skeleton 400数据集。它包含400多个类别的240,436个训练和19,796个测试骨架序列，其中每个骨架图包含18个身体关节，以及它们的2D空间坐标和来自OpenPose的预测置信度得分作为初始关节特征[50]。在每个时间步，骨骼的数量上限为2，并且丢弃具有较低总体置信度得分的骨骼。遵循[15，50]中的约定，报告了Top-1和Top-5的准确性。
4.2。实施细节
除非另有说明，否则所有模型的r = 3且均经过SGD训练，其动量为0.9，批量为32（每位工人16），初始学习率为0.05（可以按批量[9]线性扩展）为50，对于NTU RGB + D 60、120和Kinetics Skeleton 400，具有步骤LR的60和65个时期分别在时期{30，40}，{30，50}和{45，55}衰减为0.1。最终模型的重量衰减设置为0.0005，并在组件研究期间进行相应调整。通过重播动作，将所有骨骼序列填充为T = 300帧。根据[33，32]，对输入进行标准化和转换。没有数据扩充可用于公平的性能比较。
4.3。组件研究
我们分析最终架构中的各个组件及其配置。除非另有说明，否则性能仅报告为NTU RGB + D 60的“跨主题”设置上的分类精度。
解散的多尺度聚合。 我们首先通过在稀疏图和稠密图上用不同数量的标尺验证其有效性来证明我们提出的解缠结多标尺聚合方案的合理性。在表1中，我们使用了STGC块的各个路径（图3（b）），分别称为“ GCN”和“ G3D”，后缀“ -E”和“ -D”表示邻接强大而复杂的聚合。在这里，最大K = 12是NTU RGB + D 60的骨架图的直径，我们为G3D模块设置τ= 5。为了保持一致，公式中的norb = D̃ − 2 1ÃD̃ − 12。 2对于GCN-E玉米化，我们设置A和G3D-E。我们首先观察到，在K = 4的情况下，与简单的邻接能力相比，解缠结的公式可以带来多达1.4％的增益，从而增强了邻域解缠结的必要性。在这种情况下，残留掩模A res可以部分地校正权重不平衡，从而将最大间隙缩小到0.4％。但是，在G3D路径上的同一组实验（窗口图G（τ）比空间图G密集）显示了G3D-E和G3D-D之间更宽的精度差距，这表明存在更为严重的偏重加权问题。特别是，即使添加了剩余的蒙版，我们在K = 12时仍看到0.8％的性能差距。
这些结果验证了提出的解缠结聚合方案在多尺度学习中的有效性。它不仅在空间领域内而且在时空领域内都在不同数量尺度上提高了性能，在此范围内它补充了所建议的G3D模块。
一般而言，空间GCN比时空G3D模块从大型K中受益更多；对于最终架构，我们根据经验分别为MS-GCN和MS-G3D块设置K∈{12，5}。
G3D的有效性。为了验证G3D模块捕获复杂的时空特征的功效，我们逐步建立了模型及其各个组成部分，并在表2中显示了其性能。我们使用2s-AGCN的联合流[33]作为基线对照实验，为了公平起见，我们用MS-TCN层替换了其常规的时间卷积层，并获得了较少参数的改进。首先，我们观察到，由于MS-GCN中强大的解缠结聚合，仅因式分解途径可以胜过基线。但是，如果我们简单地将因式分解的路径放大到更大的容量（更深和更宽），或者复制因式分解的路径以从不同的特征子空间中学习并模仿STGC块中的多路径设计，我们会发现增益有限。相反，当添加了G3D路径后，我们用相似或更少的参数观察到了始终如一的更好结果，从而证明了G3D能够拾取复杂的时空相关性的能力，这些相关性以前是通过以分解方式对空间和时间相关性进行建模而忽略的。
探索G3D配置。表2还比较了各种G3D设置，包括τ，d的不同值以及STGC块中G3D路径的数量。我们首先观察到，所有配置始终都优于基线，从而确认了MS-G3D作为强大的特征提取器的稳定性。我们还看到τ= 5会给出更好的结果，但是由于聚集特征由于局部时空邻域过大而变得过于笼统，因此在τ= 7处增益会减小，从而抵消了较大的时间覆盖范围带来的好处。扩张率d具有不同的影响：（1）当τ= 3时，d = 1表现不及d∈{2，3}，这证明需要更大的时间范围是合理的；（2）较大的d具有边际效益，因为较大的时间覆盖范围会以时间分辨率为代价（因此使骨骼运动变粗）。因此，当两个d =（1，2）的G3D路径组合在一起时，我们会观察到更好的结果，并且正如预期的那样，当通过设置τ=（3，5）来改变时间分辨率时，我们将获得最佳结果。
跨时空连接。 为了证明对等式中定义的G（τ）中的跨时空边缘的需求。 5，而不是简单的，类似网格的时间自边缘（G3D也适用于它），我们在修复体系结构的其他部分的同时对比了表3中的不同连接方案。前两个设置是指修改块邻接矩阵Ã（τ），以便：（1）保留主对角线上的块Ã，将超对角线/次对角线上的块设置为I，其余设置为0；（2）除Ã的主要对角线外的所有块均设置为I。直观地讲，第一个产生“ 3D网格”图，第二个产生τ帧上的额外密集自边缘。显然，尽管所有设置都允许统一的时空图卷积，但跨时空边缘作为跳跃连接对于有效的信息流至关重要。
联合骨两流融合。我们在表5的NTU RGB + D 60数据集的关节骨融合框架下验证了我们的方法。类似于[33]，当融合关节和骨骼特征时我们获得了最佳性能，这表明我们的方法对其他输入的通用性方式。
4.4。与现有技术的比较我们将完整模型（图3（a））与表4、5和6中的现有技术进行比较。表4比较了非图形[26，27， [16，28]和基于图的方法[33]。表5比较了非图方法[23，20]，基于图的方法具有空间边缘[18，21，33，34，32]和时空边缘[8]。表6比较了单流[50、21]和多流[18、33、32]方法。在所有三个大型数据集上，我们的方法在所有评估设置下均优于所有现有方法。值得注意的是，我们的方法是第一个应用多路径设计来从骨架序列中学习远程时空相关性和复杂的时空相关性的方法，结果证明了该方法的有效性。

5.结论

在这项工作中，我们提出了两种改进基于骨架的动作识别的方法：一种用于图卷积的纠缠多尺度聚合方案，该方案消除了不同邻域之间的冗余依赖关系；以及G3D，一种直接对空间建模的统一时空图卷积算子骨架图序列的时间依赖性。通过耦合这些方法，我们得出MS-G3D，这是一个功能强大的特征提取器，可捕获以前因分解模型而忽略的多尺度时空特征。通过对三个大型数据集的实验，我们证明了我们的模型在很大程度上优于现有方法。
broadcast [1,2,8,31]+0.5就是全加 +[8,31]也是全加但是，8,31可以不用全是0.5;如果只想对第二个通道操作，broadcast本身不支持就是说他必须是全加。这时只能自己手动操作，把b[1]取出来[8,31] 然后对它加
cat和stack 都是合并，cat不回加新维度，指定维度的值改变（相加）。stack 回新加一个维度，其他维度的值都不变。
split 拆分只能按照原有顺序分别拆分[2,1,1]，不能跳
nn.mm 只能算2维的有局限。
nn.matmul能算高维，规则就是基本的取后2维，前面的维度对应重复算。

zzzzz忠杰

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
ms-g3d翻译

摘要时空图已被基于骨骼的动作识别算法广泛用于模拟人类动作动力学。为了从这些图形中捕获强大的运动模式，远程和多尺度上下文聚合以及时空依赖建模是功能强大的特征提取器的关键方面。但是，现有方法在实现（1）多尺度算子下的无偏远距离联合关系建模和（2）用于捕获复杂的时空依存关系的无障碍跨时空信息流方面存在局限性。在这项工作中，我们提出（1）解开多尺度图卷积的简单方法，以及（2）名为G3D的统一时空图卷积算子。所提出的多尺度聚合方案消除了有效邻域建模中不同邻域中节点的重要性。提出的G3D模块利用密集的跨时空
复制链接

扫一扫