MTF-Transformer：Adaptive Multi-View and Temporal FusingTransformer for 3D Human Pose Estimation_adaptive multi-view and temporal fusing transforme-CSDN博客

本文链接：https://blog.csdn.net/weixin_44880995/article/details/132362640

本文提出了一种新的MTFTransformer架构，用于自适应处理不同数量的视图和视频长度，无需相机校准，实现高效且鲁棒的三维人体姿态估计。该方法包含特征提取器、MFT和TFT模块，能有效融合多视图和时间信息，取得与先进方法竞争的结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2023 IEEE Transactions on Pattern Analysis and Machine Intelligence

摘要

本文提出了一个统一的框架，称为多视图和时间融合Transformer（MTF变压器），自适应地处理不同的视图数和视频长度，而无需摄像机校准的三维人体姿态估计（HPE）。它由特征提取器、多视图融合Transformer（MFT）和时间融合转换器（TFT）组成。特征提取器估计每个图像的2D姿态，并根据置信度融合预测。它提供了以姿势为中心的特征嵌入，并使后续模块在计算上轻量级。MFT融合了不同数量的视图与一种新的相对注意块的功能。它自适应地测量每对视图之间的隐式相对关系，并重建更多的信息特征。TFT聚合整个序列的特征，并通过Transformer预测三维姿态。该算法自适应地处理任意长度的视频，充分统一了时间信息。变换器的迁移使我们的模型能够更好地学习空间几何形状，并为不同的应用场景保留鲁棒性。我们报告了Human3.6M，TotalCapture和KTH Multiview Football II的定量和定性结果。与最先进的相机参数方法相比，MTF变换器获得了竞争力的结果，并推广到动态捕获任意数量的不可见视图。

模型

我们的框架的目的是自适应地处理功能，从任意数量的视图和任意序列长度，而无需相机校准。如图所示，基本思想是先将2D检测嵌入到向量中，然后融合多视图特征，最后聚合时间线索以预测3D关节。该框架由特征提取器、多视图融合Transformer（MFT）和时间融合转换器（TFT）组成。

MTF-Transformer的体系结构。它由三个连续模块组成：特征提取器、多视图融合Transformer（MFT）和时间融合变换器（TFT）。特征提取器首先预测2D姿态（ $P_{2D}$ 和 $C_{2D}$ ），然后将2D姿态编码到每个帧的特征向量中。MFT测量每对视图之间的隐式关系，以自适应地重建特征。TFT聚合整个序列的时间信息并预测中心帧的3D姿态。

1 特征提取器

特征提取器使用预先训练的2D姿态检测器（例如，CPN [55]）以获得2D预测，然后通过特征嵌入模块将它们映射成1D特征向量。获取多视图序列 $I=\left \{ I_i \right \}_{i=1}^{N\times T}$ 具有N个视图和T帧作为输入，每帧是图像 $I\in{R^{N\times{H\times{3}}}}$ .由于在每个帧上进行以下操作，因此为了简单起见，我们在此省略N和T。对于每个帧，特征提取器首先使用预训练的2D姿态检测器D2D来推断2D预测

其中，P表示2D姿态的J个坐标，并且C表示这些坐标的置信度。然后，特征嵌入模块将预测的2D姿态编码成特征向量（如图2）的情况。

四肢和头部的运动是相对独立的，因此我们将人体关节分为五个分区，在五个平行的分支中进行处理。五个分区分别是头部、左右臂、左右腿

由于从预先训练的检测器推断的2D姿态由于运动模糊和遮挡而不可靠，因此简单地融合它们可能导致不稳定的性能。为了缓解这个问题，我们利用置信度来调制坐标。具体地，置信度注意聚集（CAA）为每个部分提取局部特征，C是特征提取器输出的维度。它可以被公式化为

F都是全连接层，a是注意力矩阵， $\hat{f}^g{\in}R{^{c/2}}$ , $a^g{\in}{^{(c/2)}{^\times}{^{2Jg}}}$ ，最后的Fres两个res-block组成

我们进一步将五个分区的特征连接在一起，并将它们映射成一个全局特征 $f\in{R^c}$ 。此过程可描述为

其中Fshrink是另一个完全连接的层。它将来自五个分支的特征映射到每个帧的全局特征。对于输入的多视图序列I，NxT帧，特征提取器提取特征不适用于后续管线。

2 多视图融合

Transformer我们的目标是测量来自任意数量的视图的特征之间的关系，并自适应地融合这些特征。Transformer模型的特点是能够对输入令牌中的依赖关系进行建模，而不管它们的距离如何，并且能够立即聚合全局信息。因此，Transformer是完成该任务的候选者。然而，传统的变换器不能满足我们在位置编码方面的要求，而Point Transformer [56]在操纵值项方面存在局限性。因此，我们设计了一个相对注意力，衡量多个观点之间的相对关系，并采用了更详细的价值转换过程。

2.1 TransformerandSelf-Attention

Transformer是由self-attention块、附加位置编码和掩码块组成的模型族。位置编码为每个输入令牌提供唯一编码。掩码块基于先验知识截断一些不存在的连接。自注意算子将输入特征向量变换为输出特征向量，一个输出特征向量y1是所有输入特征向量的加权和。通常，自我注意力算子可以分为标量注意力和向量注意力。

标量点积注意力可以用公式表示如下：

不同的是，在向量注意力中，注意力权重是可以调制各个特征通道的向量

然而，标量注意和向量注意并不能完全满足我们的要求。首先，它们都使用位置编码来指示输入标记的绝对位置，但我们只需要相对关系。第二，该值只是x j的导数，但我们希望它也能反映x i和x j之间的相对关系。Point Transformer [56]提出了一种相对位置编码，并将位置编码添加到值项中，缓解了上述两个问题。然而，其相对位置编码是加性的。加法表示向量空间中的平移操作，但是我们需要更灵活的操作来操纵来自不同视图的特征。此外，如果我们在任务中直接使用Point Transformer，则必须连接所有2D关节并将其转换为位置编码。此过程会产生更多参数。参数越多，灵活性越低，往往会导致泛化问题，表6验证了这个问题。