点击下方卡片,关注「计算机视觉工坊」公众号
选择星标,干货第一时间送达
作者Jihua Peng | 编辑:计算机视觉工坊
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
读者个人理解
本文介绍的KTPFormer模型在3D姿势估计领域引入了两种新颖的注意力机制,即KPA和TPA,以增强模型对全局相关性的建模能力。通过在三个公共数据集上进行实验验证,作者展示了KTPFormer在提高性能方面的有效性,并且只带来了很小的计算开销增加。这种模型设计的灵活性和通用性使得它可以轻松地集成到其他基于Transformer的3D姿势估计模型中,为该领域的研究提供了新的思路和方法。
1 引言
本文介绍了一种新型的Transformer模型,称为KTPFormer,用于3D人体姿态估计。相较于现有的基于Transformer的方法,KTPFormer利用了人体解剖结构和关节运动轨迹的先验知识,通过两个先验注意力模块KPA和TPA来更好地学习空间和时间相关性。与其他基于图的Transformer方法不同,KPA和TPA模块被设计为轻量级的插件模块,可以简单有效地与各种基于Transformer的方法结合,提高了3D姿态估计的性能。该方法在多个基准测试中表现优异,是一种简单而有效的改进方法,可用于提高基于Transformer的模型在3D人体姿态估计中的性能。
本文的贡献为:
提出了两个新的先验注意力模块,KPA和TPA,可以简单而有效地与MHSA和MLP结合,形成了用于3D姿势估计的KTPFormer。
本文的KTPFormer在Human3.6M、MPI-INF-3DHP和HumanEva基准测试中均优于现有方法。
KPA和TPA被设计为轻量级的即插即用模块,可以集成到各种基于Transformer的方法(包括基于扩散的方法)中用于3D姿势估计。大量实验证明,作者的方法可以有效提高性能,而不会大幅增加计算资源。
2 方法
本文提出了一种新颖的Kinematics and Trajectory Prior Knowledge-Enhanced Transformer(KTPFormer)方法,用于3D人体姿态估计。该方法将运动学和轨迹先验注意力与MHSA结合,可以同时建模空间和时间信息。KTPFormer利用seq2seq管道进行姿态估计,能够预测与输入2D关键点序列对应的3D姿态序列。具体流程包括将2D姿态序列输入Kinematics-Enhanced Transformer,生成高维空间标记,然后经过空间MHSA学习全局关节相关性。接着,将序列重塑为时间标记输入Trajectory-Enhanced Transformer,生成具有关节运动轨迹信息的时间标记,并通过时间MHSA学习帧间的全局一致性。最后,将输出特征输入堆叠的时空Transformer进行编码,通过回归头预测3D姿态序列的坐标。
2.1 运动学增强Transformer
本节介绍了运动学增强Transformer(Kinematics-Enhanced Transformer,简称KET)的工作原理。该模型接收2D关键点序列作为输入,并将其转换为高维空间标记,以便于后续的处理。具体来说,输入的2D关键点序列首先经过Kinematics Prior Attention(KPA)模块,将运动学先验知识嵌入到2D关键点序列中。接着,这些处理后的关键点序列被输入到空间多头自注意力机制(Spatial Multi-Head Self-Attention,简称MHSAS)中,用于学习关节之间的全局相关性。KPA模块通过构建关节之间的关系矩阵,将人体解剖结构信息和关节运动轨迹信息注入到关键点序列中,以提高模型对关节间关系的理解能力。最终,经过MHSAS处理后的特征被输入到多层感知器(MLP)中进行进一步处理,以输出最终的姿态估计结果。整个过程保留了Transformer的固有结构,提高了模型的灵活性和可解释性。
2.2 轨迹增强Transformer
本节介绍了轨迹增强Transformer(Trajectory-Enhanced Transformer,简称TET)的工作原理。该模型旨在将关节在帧间运动的先验轨迹信息整合到标记序列中,以提高对关节间时间相关性的理解能力。首先,通过Trajectory Prior Attention(TPA)模块构建时间局部拓扑,连接相同轨迹的关键点。然后,模拟时间全局拓扑,考虑相邻和非相邻帧之间的隐含时间相关性。利用线性变换将标记序列转换为高维空间标记,并利用可学习的权重矩阵允许不同关键点学习不同的先验知识。最后,通过时间多头自注意力机制(Temporal Multi-Head Self-Attention,简称MHSAT)模拟全局时间相关性,进一步提高了模型对关节间时间相关性的建模能力。整体而言,TET能够有效地学习并整合关节在帧间的运动轨迹信息,为3D人体姿态估计提供了更准确的时间建模方法。
2.3 堆叠的时空编码器
在被重新整形后,HST 被送入由交替的空间和时间 Transformer 组成的堆叠式时空编码器中。堆叠的层数为 L。在输入编码器(空间或时间)之前,序列特征根据 MHSA 的类型重新整形。
2.4 回归头部
本节介绍了如何利用线性层作为回归头部,用于预测3D姿势序列。网络的整体损失函数由加权均值每关节位置误差损失、时间一致性损失和每关节平均速度误差损失组成,其中超参数λT和λM用于调节各损失项的重要性。
3 实验
在实验部分,作者首先介绍了使用的三个公开数据集:Human3.6M、MPI-INF-3DHP和HumanEva。其中,Human3.6M是一个室内场景数据集,包含360万个视频帧,11位专业演员在4个同步摄像头视图下表演15种动作;MPI-INF-3DHP是一个大型公开数据集;HumanEva是一个较小的数据集,为了与之前的工作进行公平比较,作者选择评估方法在HumanEva的S1、S2、S3三个主体上的表现。
在实验协议方面,作者使用了两种协议:Protocol#1是指平均每关节位置误差(MPJPE),即预测的关节坐标与地面实况的平均欧几里得距离;Protocol#2是指经过预测的3D姿势与通过Procrustes分析对齐的地面实况3D姿势的重构误差,称为P-MPJPE。
在实现细节方面,作者在Pytorch框架上实现了他们的方法,使用了一块GeForce RTX 3090 GPU。输入2D关键点是通过2D姿势检测器或2D地面实况获得的。作者将堆叠的时空编码器的数量L设置为7,每个编码器包含14个空间和时间变换层。训练阶段使用Adam优化器,批量大小为7。学习率初始化为0.00007,每个epoch衰减0.99。作者还介绍了将扩散模型引入3D姿势估计的实验设置,以及该方法的参数设置。
在与最新方法的比较中,作者将他们的方法与基于Human3.6M数据集的最新方法进行了比较。结果显示,作者的方法在MPJPE和P-MPJPE方面实现了最先进的结果,MPJPE为33.0mm,P-MPJPE为26.2mm。作者的方法在MPJPE和P-MPJPE方面优于D3DP方法。此外,作者的方法在不使用扩散过程的情况下也获得了最佳结果。作者还在MPI-INF-3DHP数据集上验证了他们方法的泛化能力,结果表明其方法具有强大的泛化能力。最后,作者进行了消融实验和定性分析,验证了他们方法的有效性和鲁棒性。
4 总结
本文介绍了一种新型的Kinematics and Trajectory Prior Knowledge-Enhanced Transformer(KTPFormer),用于3D姿势估计。该模型利用了两种新颖的先验注意力机制(KPA和TPA),能够有效地增强建模全局相关性的能力。实验结果表明,KTPFormer在提高性能方面表现出色,且计算开销仅有很小增加。此外,KPA和TPA可以轻松集成到各种基于Transformer的3D姿势估计器中,具有很好的通用性和灵活性。
5 参考
[1]KTPFormer: Kinematics and Trajectory Prior Knowledge-Enhanced Transformer for 3D Human Pose Estimation
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉学习知识星球
3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。
3D视觉相关硬件
图片 | 说明 | 名称 |
---|---|---|
硬件+源码+视频教程 | 精迅V1(科研级))单目/双目3D结构光扫描仪 | |
硬件+源码+视频教程 | 深迅V13D线结构光三维扫描仪 | |
硬件+源码+视频教程 | 御风250无人机(基于PX4) | |
硬件+源码 | 工坊智能ROS小车 | |
配套标定源码 | 高精度标定板(玻璃or大理石) | |
添加微信:cv3d007或者QYong2014 咨询更多 |