ConvFormer: Parameter Reduction in Transformer Models for 3D HumanPose Estimation by Leveraging Dyn

ConvFormer:通过利用动态多头卷积注意力进行3D人体姿态估计的Transformer模型中的参数减少

摘要

最近,全变换器架构已经取代了3D人体姿态估计任务的事实上的卷积架构。在本文中,我们提出了ConvFormer,这是一种新型的卷积Transformer,它利用一种新的动态多头卷积自注意机制进行单目3D人体姿态估计。我们设计了一个空间和时间卷积Transformer,以全面模拟单个帧内的人体关节关系,并在整个运动序列中进行全局建模。此外,我们引入了一个新的概念,我们的时间ConvFormer,融合完整的时间信息,立即为联合特征的局部邻域的时间关节配置文件。我们已经在三个常见的基准数据集上定量和定性地验证了我们的方法:Human3.6M、MPI-INF-3DHP和HumanEva。已经进行了大量的实验,以确定最佳的超参数集。这些实验表明,相对于先前的Transformer模型,我们实现了显著的参数降低,同时在所有三个数据集上实现了最新技术水平(SOTA)或接近SOTA。此外,我们在H36 M上实现了GT和CPN检测输入的协议III的SOTA。最后,我们获得了MPI-INF-3DHP数据集的所有三个指标的SOTA和方案II下HumanEva上的所有三个受试者。

贡献

1.使用称为ConvFormer的新架构,相对于其他Transformer模型,参数显著降低。ConvFormer利用了一种新颖的多头卷积自注意机制,可动态地将子查询、键和值聚合为一组更丰富的3D HPE线索。

2.引入了时间关节轮廓的新概念,其依赖于运动序列的完整时间信息的立即融合。

3.深入研究影响ConvFormer性能的因素。

方法

 图A描绘了ConvFormer块的架构。图B呈现了来自一系列2D姿态的3D HPE的整体流水线。ConvFormer块的中心组件是DMHCSA,如图C所示。图C底部的弯曲蓝线对应于右肘关节的提取的颞关节轮廓的一部分(对于颞ConvFormer块)。图D呈现了在时间ConvFormer块中生成查询、键和值期间的卷积的示例。滤波器在特征维度上滑动,有效地卷积局部联合邻域的完整时间轮廓。

convformer block

我们在网络架构中采用两个主要组件:空间和时间convformer。空间ConvFormer块提取用于单帧的编码联合相关性的高维特征向量。我们假设我们的输入是由两个坐标(u,v)表示的具有J个关节的2D姿势。在[5]之后,我们首先将每个关节的坐标映射到具有可训练线性层的高维特征向量。然后,我们通过求和来应用学习的位置编码以保留关节位置信息。也就是说,给定姿态序列{Pi} Ti =1 RJ×2且W ∈ R2×d且Epos ∈ RJ×d,我们对Pi编码如下:

 并且d表示嵌入的维度,W是可训练线性层,并且Epos是学习的位置编码。随后,空间特征序列{xi} Ti =1 RJ×d被馈送到空间ConvFormer中,该空间ConvFormer将注意力机制应用于关节维度,以在每帧的基础上跨完整姿态整合信息。Q、K、V经由与以下维度(d,d,k)的权重的卷积生成,其中d是编码维度,k是内核大小,并且滤波器在关节维度上滑动。第b个空间ConvFormer块的第i个帧的输出表示为zbi ∈ Rxd,其中i = 1,…T的。

temporal joints profile

虽然空间ConvFormer试图在单个帧中编码关节之间的相关性,但我们利用时间模型来定位编码的空间特征之间的序列相关性。这种机制应该被视为提取关节邻域的时间轮廓,我们称之为temporal joints profile(参见图1中的面板D)。利用这种时间融合机制的早期工作是[4],其中Karpathy et al.研究了不同的机制,将时间信息,而不卷积的时间维度。为了进一步阐明这一点,Q、K、V经由具有以下维度(T,T,k)的权重的卷积生成,其中k是内核大小,并且1D卷积具有输入序列的大小的深度。因此,人们可以将我们的网络视为立即将深度联合特征的时间演变融合到查询中。这与[5]中看到的时间注意力非常不同,[5]中的时间注意力在整个运动序列中参与完整的姿势编码。我们注意到,来自空间ConvFormer块的输出是序列{zBi}i=1,…其中B是空间块的数量,T是序列中的帧的数量。我们注意到,zbi可以用R1×J·d表示,因此沿着第一轴连接这些特征,给出X 0 = Concatenate(zB 1,…zBT)∈ RT×J·d。在此过程之后,我们结合了学习的时间嵌入以保留关于整个时间内的深度联合特征演变的信息,即Etemp ∈ RT×J·d和X = X 0 +Etemp是我们的时间Transformer的输入。我们注意到,具有时间注意力的第b个ConvFormer块的输出是Zb ∈ RT×J·d,其中有B个这样的层。

由于我们遵循[2]中首次引入的多对一预测方案,因此我们首先使用线性投影对空间轴进行下采样,然后使用一个输出通道执行时间卷积,即其中W ∈ RJ·d×3J和ConvT,1表示具有一个输出通道和T个输入通道的时间卷积。我们通过在优化过程中最小化MPJPE(平均每关节位置误差)来训练我们的网络。损失函数定义为

我们通过在优化过程中最小化MPJPE(平均每关节位置误差)来训练我们的网络。损失函数定义为

其中p是地面实况3D姿势,P是预测姿势,i是骨架中的特定关节索引。

 动态多头卷积自注意(DMCSA)

 本文的一个核心新奇是动态多头卷积自注意机制。这是为了减少经典Transformer架构中的过度连通性,同时在不同尺度上提取上下文。另一个新奇是在我们的时间ConvFormer块中查询的表示类型。代替生成查询、键和值,它们是各个帧的潜在姿态表示并且关注时间轴;我们在注意力机制之前查询有效地融合时间信息的时间关节简档。

卷积缩放点积注意力可以被描述为将查询矩阵Q、键矩阵K和值矩阵V映射到输出注意力矩阵的映射函数,其中矩阵条目是表示被关注的维度中的任何两个元素之间的相关强度的分数。我们注意到Q,K,V ∈ RN×d,其中N是序列的长度,d是维数。在我们的空间ConvFormer中,N = J,并且在时间ConvFormer中,N = T。缩放的点积注意力的输出可以表示为

 对于固定的过滤器长度,以相同的方式计算查询、键和值。我们演示了如何生成Q,并注意到K和V以相同的方式计算。

 这里,κ表示核大小,并且dout表示输出维度。这与[12]中介绍的经典缩放点积attention并置,其中查询、键和值是通过线性投影生成的

 在缩放点积注意力之前的时间信息。ConvFormers在不同尺度上提供上下文的能力可归因于动态特征聚合方法。此外,由于我们的卷积机制,我们在帧间级别上查询,在那里我们学习时间关节轮廓。为此,我们使用n个卷积滤波器大小以{κi}n i=1的尺度提取不同的局部上下文,然后执行平均运算以生成我们关注的最终查询,键和值,以下是[36]中提出的想法:

 其中,n是所使用的卷积滤波器的数量,ηQ ∈ Rn×1是学习参数,Qi如等式4所示生成。动态多头卷积自注意(DMHCSA)利用多个头来联合建模来自多个表示空间的信息。如图1所示,每个头部并行应用缩放的点积自注意。DMHCSA块的输出是馈送到前馈网络中的h个注意头输出的级联。

 然后,ConvFormer块由以下等式定义:

 其中LN(·)表示与[21,55]相同的层归一化。并且FFN表示前馈网络。空间和时间ConvFormer块都由Bsp和Btemp相同的块组成。空间ConvFormer编码器的输出是Y ∈ RT×J×d,其中T是帧序列长度,J是关节的数量,d是嵌入维数。时间ConvFormer的输出是Y ∈ RT×Jd。

 实验

我们使用PyTorch [17]实现了我们提出的解决方案方法,并使用两个NVIDIA RTX 3090 GPU进行了训练。当进行实验时,我们使用5个不同的帧序列长度在H3.6M上进行训练,T = 9,27,81,143,243。在[2]之后,我们通过水平翻转姿势来增强我们的数据集。我们用60个epoch训练模型,初始学习率为1 e-3,每个epoch后的权重衰减因子为0.95。我们将批量大小设置为1024,并利用0.2的随机深度[18]。我们还在卷积自注意机制内部的动态特征聚合上使用了0.2的dropout [22]率。我们在H3.6M上使用CPN [24]检测[2,11,16,5]和地面真实2D姿态进行基准测试。此外,我们使用三个不同的帧序列长度T = 9,T = 27和T = 43对HumanEva进行基准测试[13]。最后,在[5,68]之后,我们进一步评估了我们的解决方案方法在MPI-INF-3DHP数据集上的泛化能力。我们使用长度为T = 9的2D姿势序列作为我们的模型输入,并且我们使用三个指标进行评估,即正确关键点的百分比(PCK)、曲线下面积(AUC)和MPJPE。

分析空间嵌入维数以及空间和时间ConvFormer块的数量。我们还进行了有限的分析注意头的数量。最佳性能由红色标记并由MPJPE评估。

不同内核配置的分析,其中相对于MPJPE对H36M的CPN检测评估性能。最好用红色标记。

 参数计数和FLOPs结果与MPJPE不同的Transformer架构和图形注意力网络分离的感受野。最后一组是具有最大接受场的模型。最好的和第二好的分别用红色和蓝色标记。

消融研究分析了ConvFormer的不同组件对准确度和参数计数的影响。

 结论

在本文中,我们试图解决日益增长的复杂性的Transformer模型。为此,我们引入了基于三个新组件的ConvFormer:时间融合、卷积自注意和动态特征聚合。为了评估不同组件的有效性,我们进行了广泛的消融研究。我们将相对于先前SOTA的参数计数减少了65%以上,同时在H36 M上实现了针对GT输入的协议I、针对CPN检测的协议II、针对GT和CPN输入的协议III、针对所有受试者的HumanEva以及最后MPI的所有三个指标的SOTA。有趣的是,尽管图卷积网络和图注意力网络是轻量级的,并且鲁棒地模型空间/时间关系,但ConvFormer在减少错误和计算复杂性之间提供了更好的权衡。我们相信ConvFormer将通过降低训练和推理过程的计算要求,提供更容易访问高质量的3D重建网络。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值