CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!

最新推荐文章于 2025-04-25 14:29:41 发布

计算机视觉工坊

最新推荐文章于 2025-04-25 14:29:41 发布

阅读量415

点赞数 3

文章标签： 3d

本文链接：https://blog.csdn.net/weixin_46788581/article/details/139192644

版权

点击下方卡片，关注「计算机视觉工坊」公众号
选择星标，干货第一时间送达

作者Jihua Peng | 编辑：计算机视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

读者个人理解

本文介绍的KTPFormer模型在3D姿势估计领域引入了两种新颖的注意力机制，即KPA和TPA，以增强模型对全局相关性的建模能力。通过在三个公共数据集上进行实验验证，作者展示了KTPFormer在提高性能方面的有效性，并且只带来了很小的计算开销增加。这种模型设计的灵活性和通用性使得它可以轻松地集成到其他基于Transformer的3D姿势估计模型中，为该领域的研究提供了新的思路和方法。

1 引言

本文介绍了一种新型的Transformer模型，称为KTPFormer，用于3D人体姿态估计。相较于现有的基于Transformer的方法，KTPFormer利用了人体解剖结构和关节运动轨迹的先验知识，通过两个先验注意力模块KPA和TPA来更好地学习空间和时间相关性。与其他基于图的Transformer方法不同，KPA和TPA模块被设计为轻量级的插件模块，可以简单有效地与各种基于Transformer的方法结合，提高了3D姿态估计的性能。该方法在多个基准测试中表现优异，是一种简单而有效的改进方法，可用于提高基于Transformer的模型在3D人体姿态估计中的性能。

本文的贡献为：

提出了两个新的先验注意力模块，KPA和TPA，可以简单而有效地与MHSA和MLP结合，形成了用于3D姿势估计的KTPFormer。
本文的KTPFormer在Human3.6M、MPI-INF-3DHP和HumanEva基准测试中均优于现有方法。
KPA和TPA被设计为轻量级的即插即用模块，可以集成到各种基于Transformer的方法（包括基于扩散的方法）中用于3D姿势估计。大量实验证明，作者的方法可以有效提高性能，而不会大幅增加计算资源。

2 方法

本文提出了一种新颖的Kinematics and Trajectory Prior Knowledge-Enhanced Transformer（KTPFormer）方法，用于3D人体姿态估计。该方法将运动学和轨迹先验注意力与MHSA结合，可以同时建模空间和时间信息。KTPFormer利用seq2seq管道进行姿态估计，能够预测与输入2D关键点序列对应的3D姿态序列。具体流程包括将2D姿态序列输入Kinematics-Enhanced Transformer，生成高维空间标记，然后经过空间MHSA学习全局关节相关性。接着，将序列重塑为时间标记输入Trajectory-Enhanced Transformer，生成具有关节运动轨迹信息的时间标记，并通过时间MHSA学习帧间的全局一致性。最后，将输出特征输入堆叠的时空Transformer进行编码，通过回归头预测3D姿态序列的坐标。

2.1 运动学增强Transformer

本节介绍了运动学增强Transformer（Kinematics-Enhanced Transformer，简称KET）的工作原理。该模型接收2D关键点序列作为输入，并将其转换为高维空间标记，以便于后续的处理。具体来说，输入的2D关键点序列首先经过Kinematics Prior Attention（KPA）模块，将运动学先验知识嵌入到2D关键点序列中。接着，这些处理后的关键点序列被输入到空间多头自注意力机制（Spatial Multi-Head Self-Attention，简称MHSAS）中，用于学习关节之间的全局相关性。KPA模块通过构建关节之间的关系矩阵，将人体解剖结构信息和关节运动轨迹信息注入到关键点序列中，以提高模型对关节间关系的理解能力。最终，经过MHSAS处理后的特征被输入到多层感知器（MLP）中进行进一步处理，以输出最终的姿态估计结果。整个过程保留了Transformer的固有结构，提高了模型的灵活性和可解释性。

2.2 轨迹增强Transformer

本节介绍了轨迹增强Transformer（Trajectory-Enhanced Transformer，简称TET）的工作原理。该模型旨在将关节在帧间运动的先验轨迹信息整合到标记序列中，以提高对关节间时间相关性的理解能力。首先，通过Trajectory Prior Attention（TPA）模块构建时间局部拓扑，连接相同轨迹的关键点。然后，模拟时间全局拓扑，考虑相邻和非相邻帧之间的隐含时间相关性。利用线性变换将标记序列转换为高维空间标记，并利用可学习的权重矩阵允许不同关键点学习不同的先验知识。最后，通过时间多头自注意力机制（Temporal Multi-Head Self-Attention，简称MHSAT）模拟全局时间相关性，进一步提高了模型对关节间时间相关性的建模能力。整体而言，TET能够有效地学习并整合关节在帧间的运动轨迹信息，为3D人体姿态估计提供了更准确的时间建模方法。

2.3 堆叠的时空编码器

在被重新整形后，HST 被送入由交替的空间和时间 Transformer 组成的堆叠式时空编码器中。堆叠的层数为 L。在输入编码器（空间或时间）之前，序列特征根据 MHSA 的类型重新整形。

2.4 回归头部

本节介绍了如何利用线性层作为回归头部，用于预测3D姿势序列。网络的整体损失函数由加权均值每关节位置误差损失、时间一致性损失和每关节平均速度误差损失组成，其中超参数λT和λM用于调节各损失项的重要性。

3 实验

在实验部分，作者首先介绍了使用的三个公开数据集：Human3.6M、MPI-INF-3DHP和HumanEva。其中，Human3.6M是一个室内场景数据集，包含360万个视频帧，11位专业演员在4个同步摄像头视图下表演15种动作；MPI-INF-3DHP是一个大型公开数据集；HumanEva是一个较小的数据集，为了与之前的工作进行公平比较，作者选择评估方法在HumanEva的S1、S2、S3三个主体上的表现。

在实验协议方面，作者使用了两种协议：Protocol#1是指平均每关节位置误差（MPJPE），即预测的关节坐标与地面实况的平均欧几里得距离；Protocol#2是指经过预测的3D姿势与通过Procrustes分析对齐的地面实况3D姿势的重构误差，称为P-MPJPE。

在实现细节方面，作者在Pytorch框架上实现了他们的方法，使用了一块GeForce RTX 3090 GPU。输入2D关键点是通过2D姿势检测器或2D地面实况获得的。作者将堆叠的时空编码器的数量L设置为7，每个编码器包含14个空间和时间变换层。训练阶段使用Adam优化器，批量大小为7。学习率初始化为0.00007，每个epoch衰减0.99。作者还介绍了将扩散模型引入3D姿势估计的实验设置，以及该方法的参数设置。

在与最新方法的比较中，作者将他们的方法与基于Human3.6M数据集的最新方法进行了比较。结果显示，作者的方法在MPJPE和P-MPJPE方面实现了最先进的结果，MPJPE为33.0mm，P-MPJPE为26.2mm。作者的方法在MPJPE和P-MPJPE方面优于D3DP方法。此外，作者的方法在不使用扩散过程的情况下也获得了最佳结果。作者还在MPI-INF-3DHP数据集上验证了他们方法的泛化能力，结果表明其方法具有强大的泛化能力。最后，作者进行了消融实验和定性分析，验证了他们方法的有效性和鲁棒性。

4 总结

本文介绍了一种新型的Kinematics and Trajectory Prior Knowledge-Enhanced Transformer（KTPFormer），用于3D姿势估计。该模型利用了两种新颖的先验注意力机制（KPA和TPA），能够有效地增强建模全局相关性的能力。实验结果表明，KTPFormer在提高性能方面表现出色，且计算开销仅有很小增加。此外，KPA和TPA可以轻松集成到各种基于Transformer的3D姿势估计器中，具有很好的通用性和灵活性。

5 参考

[1]KTPFormer: Kinematics and Trajectory Prior Knowledge-Enhanced Transformer for 3D Human Pose Estimation

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理

3D视觉学习知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括：星球视频课程近20门（价值超6000）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉课程官网：www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

▲长按扫码学习3D视觉精品课程

3D视觉相关硬件

图片	说明	名称
	硬件+源码+视频教程	精迅V1(科研级)）单目/双目3D结构光扫描仪
	硬件+源码+视频教程	深迅V13D线结构光三维扫描仪
	硬件+源码+视频教程	御风250无人机(基于PX4)
	硬件+源码	工坊智能ROS小车
	配套标定源码	高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多