MTF-Transformer:Adaptive Multi-View and Temporal FusingTransformer for 3D Human Pose Estimation

2023 IEEE Transactions on Pattern Analysis and Machine Intelligence

摘要

本文提出了一个统一的框架,称为多视图和时间融合Transformer(MTF变压器),自适应地处理不同的视图数和视频长度,而无需摄像机校准的三维人体姿态估计(HPE)。它由特征提取器、多视图融合Transformer(MFT)和时间融合转换器(TFT)组成。特征提取器估计每个图像的2D姿态,并根据置信度融合预测。它提供了以姿势为中心的特征嵌入,并使后续模块在计算上轻量级。MFT融合了不同数量的视图与一种新的相对注意块的功能。它自适应地测量每对视图之间的隐式相对关系,并重建更多的信息特征。TFT聚合整个序列的特征,并通过Transformer预测三维姿态。该算法自适应地处理任意长度的视频,充分统一了时间信息。变换器的迁移使我们的模型能够更好地学习空间几何形状,并为不同的应用场景保留鲁棒性。我们报告了Human3.6M,TotalCapture和KTH Multiview Football II的定量和定性结果。与最先进的相机参数方法相比,MTF变换器获得了竞争力的结果,并推广到动态捕获任意数量的不可见视图。

 模型

我们的框架的目的是自适应地处理功能,从任意数量的视图和任意序列长度,而无需相机校准。如图所示,基本思想是先将2D检测嵌入到向量中,然后融合多视图特征,最后聚合时间线索以预测3D关节。该框架由特征提取器、多视图融合Transformer(MFT)和时间融合转换器(TFT)组成。

图1

 MTF-Transformer的体系结构。它由三个连续模块组成:特征提取器、多视图融合Transformer(MFT)和时间融合变换器(TFT)。特征提取器首先预测2D姿态(P_{2D}C_{2D}),然后将2D姿态编码到每个帧的特征向量中。MFT测量每对视图之间的隐式关系,以自适应地重建特征。TFT聚合整个序列的时间信息并预测中心帧的3D姿态。

1 特征提取器

特征提取器使用预先训练的2D姿态检测器(例如,CPN [55])以获得2D预测,然后通过特征嵌入模块将它们映射成1D特征向量。获取多视图序列I=\left \{ I_i \right \}_{i=1}^{N\times T}具有N个视图和T帧作为输入,每帧是图像I\in{R^{N\times{H\times{3}}}}.由于在每个帧上进行以下操作,因此为了简单起见,我们在此省略N和T。对于每个帧,特征提取器首先使用预训练的2D姿态检测器D2D来推断2D预测

其中,P表示2D姿态的J个坐标,并且C表示这些坐标的置信度。然后,特征嵌入模块将预测的2D姿态编码成特征向量(如图2)的情况。

图2

四肢和头部的运动是相对独立的,因此我们将人体关节分为五个分区,在五个平行的分支中进行处理。五个分区分别是头部、左右臂、左右腿

由于从预先训练的检测器推断的2D姿态由于运动模糊和遮挡而不可靠,因此简单地融合它们可能导致不稳定的性能。为了缓解这个问题,我们利用置信度来调制坐标。具体地,置信度注意聚集(CAA)为每个部分提取局部特征,C是特征提取器输出的维度。它可以被公式化为

 F都是全连接层,a是注意力矩阵,$\hat{f}^g{\in}R{^{c/2}}$,a^g{\in}{^{(c/2)}{^\times}{^{2Jg}}},最后的Fres两个res-block组成

 我们进一步将五个分区的特征连接在一起,并将它们映射成一个全局特征f\in{R^c}。此过程可描述为

 

 其中Fshrink是另一个完全连接的层。它将来自五个分支的特征映射到每个帧的全局特征。对于输入的多视图序列I,NxT帧,特征提取器提取特征不适用于后续管线。

2 多视图融合

Transformer我们的目标是测量来自任意数量的视图的特征之间的关系,并自适应地融合这些特征。Transformer模型的特点是能够对输入令牌中的依赖关系进行建模,而不管它们的距离如何,并且能够立即聚合全局信息。因此,Transformer是完成该任务的候选者。然而,传统的变换器不能满足我们在位置编码方面的要求,而Point Transformer [56]在操纵值项方面存在局限性。因此,我们设计了一个相对注意力,衡量多个观点之间的相对关系,并采用了更详细的价值转换过程。

2.1 TransformerandSelf-Attention

Transformer是由self-attention块、附加位置编码和掩码块组成的模型族。位置编码为每个输入令牌提供唯一编码。掩码块基于先验知识截断一些不存在的连接。自注意算子将输入特征向量变换为输出特征向量,一个输出特征向量y1是所有输入特征向量的加权和。通常,自我注意力算子可以分为标量注意力和向量注意力。

标量点积注意力可以用公式表示如下:

 不同的是,在向量注意力中,注意力权重是可以调制各个特征通道的向量

        然而,标量注意和向量注意并不能完全满足我们的要求。首先,它们都使用位置编码来指示输入标记的绝对位置,但我们只需要相对关系。第二,该值只是x j的导数,但我们希望它也能反映x i和x j之间的相对关系。Point Transformer [56]提出了一种相对位置编码,并将位置编码添加到值项中,缓解了上述两个问题。然而,其相对位置编码是加性的。加法表示向量空间中的平移操作,但是我们需要更灵活的操作来操纵来自不同视图的特征。此外,如果我们在任务中直接使用Point Transformer,则必须连接所有2D关节并将其转换为位置编码。此过程会产生更多参数。参数越多,灵活性越低,往往会导致泛化问题,表6验证了这个问题。

 2.2多视图融合Transformer

 最终输出为:

 相对注意力是向量乘积运算。它们之间的区别在于(1)在查询项和值项中丢弃了显式位置编码,(2)相对关系也以变换矩阵的形式集成到值项中。

2.3 时间融合Transformer

 

 TFT在训练阶段屏蔽一些帧,以与静态场景中的单个图像和动态场景中的多视图视频兼容。例如,当输入视频序列具有7帧时,左帧和右帧被均匀地掩蔽。

2.4 损失函数

 损失函数由两部分组成。我们采用平均每关节位置误差(MPJPE)作为训练损失和测试度量。MPJPE首先将预测骨架和地面真实骨架的根关节(中心髋关节)对准,然后计算它们的每个关节之间的平均欧几里得距离。MPJPE被计算为

此外,我们利用每对视图之间的旋转矩阵来约束变换矩阵Tij,还使用额外的变换误差作为

损失函数为: 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值