CVPR'24香港理工最新KTPFormer,超强3D 姿势估计SOTA!

点击下方卡片,关注「计算机视觉工坊」公众号
选择星标,干货第一时间送达

作者Jihua Peng | 编辑:计算机视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)最新顶会论文计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

f1c6240f4e38184dbae3ea8f992692f6.jpeg

读者个人理解

本文介绍的KTPFormer模型在3D姿势估计领域引入了两种新颖的注意力机制,即KPA和TPA,以增强模型对全局相关性的建模能力。通过在三个公共数据集上进行实验验证,作者展示了KTPFormer在提高性能方面的有效性,并且只带来了很小的计算开销增加。这种模型设计的灵活性和通用性使得它可以轻松地集成到其他基于Transformer的3D姿势估计模型中,为该领域的研究提供了新的思路和方法。

a8eeb691496bd6ab9479046535a7f2ef.png

1 引言

本文介绍了一种新型的Transformer模型,称为KTPFormer,用于3D人体姿态估计。相较于现有的基于Transformer的方法,KTPFormer利用了人体解剖结构和关节运动轨迹的先验知识,通过两个先验注意力模块KPA和TPA来更好地学习空间和时间相关性。与其他基于图的Transformer方法不同,KPA和TPA模块被设计为轻量级的插件模块,可以简单有效地与各种基于Transformer的方法结合,提高了3D姿态估计的性能。该方法在多个基准测试中表现优异,是一种简单而有效的改进方法,可用于提高基于Transformer的模型在3D人体姿态估计中的性能。

本文的贡献为:

  • 提出了两个新的先验注意力模块,KPA和TPA,可以简单而有效地与MHSA和MLP结合,形成了用于3D姿势估计的KTPFormer。

  • 本文的KTPFormer在Human3.6M、MPI-INF-3DHP和HumanEva基准测试中均优于现有方法。

  • KPA和TPA被设计为轻量级的即插即用模块,可以集成到各种基于Transformer的方法(包括基于扩散的方法)中用于3D姿势估计。大量实验证明,作者的方法可以有效提高性能,而不会大幅增加计算资源。

c383dc50d5dff5eed22f15908d6de1ee.png

2 方法

本文提出了一种新颖的Kinematics and Trajectory Prior Knowledge-Enhanced Transformer(KTPFormer)方法,用于3D人体姿态估计。该方法将运动学和轨迹先验注意力与MHSA结合,可以同时建模空间和时间信息。KTPFormer利用seq2seq管道进行姿态估计,能够预测与输入2D关键点序列对应的3D姿态序列。具体流程包括将2D姿态序列输入Kinematics-Enhanced Transformer,生成高维空间标记,然后经过空间MHSA学习全局关节相关性。接着,将序列重塑为时间标记输入Trajectory-Enhanced Transformer,生成具有关节运动轨迹信息的时间标记,并通过时间MHSA学习帧间的全局一致性。最后,将输出特征输入堆叠的时空Transformer进行编码,通过回归头预测3D姿态序列的坐标。

2.1 运动学增强Transformer

本节介绍了运动学增强Transformer(Kinematics-Enhanced Transformer,简称KET)的工作原理。该模型接收2D关键点序列作为输入,并将其转换为高维空间标记,以便于后续的处理。具体来说,输入的2D关键点序列首先经过Kinematics Prior Attention(KPA)模块,将运动学先验知识嵌入到2D关键点序列中。接着,这些处理后的关键点序列被输入到空间多头自注意力机制(Spatial Multi-Head Self-Attention,简称MHSAS)中,用于学习关节之间的全局相关性。KPA模块通过构建关节之间的关系矩阵,将人体解剖结构信息和关节运动轨迹信息注入到关键点序列中,以提高模型对关节间关系的理解能力。最终,经过MHSAS处理后的特征被输入到多层感知器(MLP)中进行进一步处理,以输出最终的姿态估计结果。整个过程保留了Transformer的固有结构,提高了模型的灵活性和可解释性。

2.2 轨迹增强Transformer

本节介绍了轨迹增强Transformer(Trajectory-Enhanced Transformer,简称TET)的工作原理。该模型旨在将关节在帧间运动的先验轨迹信息整合到标记序列中,以提高对关节间时间相关性的理解能力。首先,通过Trajectory Prior Attention(TPA)模块构建时间局部拓扑,连接相同轨迹的关键点。然后,模拟时间全局拓扑,考虑相邻和非相邻帧之间的隐含时间相关性。利用线性变换将标记序列转换为高维空间标记,并利用可学习的权重矩阵允许不同关键点学习不同的先验知识。最后,通过时间多头自注意力机制(Temporal Multi-Head Self-Attention,简称MHSAT)模拟全局时间相关性,进一步提高了模型对关节间时间相关性的建模能力。整体而言,TET能够有效地学习并整合关节在帧间的运动轨迹信息,为3D人体姿态估计提供了更准确的时间建模方法。

2.3 堆叠的时空编码器

在被重新整形后,HST 被送入由交替的空间和时间 Transformer 组成的堆叠式时空编码器中。堆叠的层数为 L。在输入编码器(空间或时间)之前,序列特征根据 MHSA 的类型重新整形。

2.4 回归头部

本节介绍了如何利用线性层作为回归头部,用于预测3D姿势序列。网络的整体损失函数由加权均值每关节位置误差损失、时间一致性损失和每关节平均速度误差损失组成,其中超参数λT和λM用于调节各损失项的重要性。

3 实验

在实验部分,作者首先介绍了使用的三个公开数据集:Human3.6M、MPI-INF-3DHP和HumanEva。其中,Human3.6M是一个室内场景数据集,包含360万个视频帧,11位专业演员在4个同步摄像头视图下表演15种动作;MPI-INF-3DHP是一个大型公开数据集;HumanEva是一个较小的数据集,为了与之前的工作进行公平比较,作者选择评估方法在HumanEva的S1、S2、S3三个主体上的表现。

在实验协议方面,作者使用了两种协议:Protocol#1是指平均每关节位置误差(MPJPE),即预测的关节坐标与地面实况的平均欧几里得距离;Protocol#2是指经过预测的3D姿势与通过Procrustes分析对齐的地面实况3D姿势的重构误差,称为P-MPJPE。

在实现细节方面,作者在Pytorch框架上实现了他们的方法,使用了一块GeForce RTX 3090 GPU。输入2D关键点是通过2D姿势检测器或2D地面实况获得的。作者将堆叠的时空编码器的数量L设置为7,每个编码器包含14个空间和时间变换层。训练阶段使用Adam优化器,批量大小为7。学习率初始化为0.00007,每个epoch衰减0.99。作者还介绍了将扩散模型引入3D姿势估计的实验设置,以及该方法的参数设置。

在与最新方法的比较中,作者将他们的方法与基于Human3.6M数据集的最新方法进行了比较。结果显示,作者的方法在MPJPE和P-MPJPE方面实现了最先进的结果,MPJPE为33.0mm,P-MPJPE为26.2mm。作者的方法在MPJPE和P-MPJPE方面优于D3DP方法。此外,作者的方法在不使用扩散过程的情况下也获得了最佳结果。作者还在MPI-INF-3DHP数据集上验证了他们方法的泛化能力,结果表明其方法具有强大的泛化能力。最后,作者进行了消融实验和定性分析,验证了他们方法的有效性和鲁棒性。

ba9749b736810875c745c1a81cb68040.png 4795e5131fd1ad183ff6d74d2334f3e3.png

4 总结

本文介绍了一种新型的Kinematics and Trajectory Prior Knowledge-Enhanced Transformer(KTPFormer),用于3D姿势估计。该模型利用了两种新颖的先验注意力机制(KPA和TPA),能够有效地增强建模全局相关性的能力。实验结果表明,KTPFormer在提高性能方面表现出色,且计算开销仅有很小增加。此外,KPA和TPA可以轻松集成到各种基于Transformer的3D姿势估计器中,具有很好的通用性和灵活性。

5 参考

[1]KTPFormer: Kinematics and Trajectory Prior Knowledge-Enhanced Transformer for 3D Human Pose Estimation

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

90521cd559ceb53b6e972cdf1654abe2.png
▲长按扫码添加助理
3D视觉学习知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉课程官网:www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

▲长按扫码学习3D视觉精品课程
3D视觉相关硬件
图片说明名称
04e819f4a6963cd34e9e08418940f1fd.png硬件+源码+视频教程精迅V1(科研级))单目/双目3D结构光扫描仪
08f3233fcf0dc3c305634be52f21fd2e.png硬件+源码+视频教程深迅V13D线结构光三维扫描仪
4f6174d7f4a3b6c3e003618d33181236.jpeg硬件+源码+视频教程御风250无人机(基于PX4)
8bb2806f42613ca850662cb9b1d1223f.png硬件+源码工坊智能ROS小车
2e9804d76ccd5e591e67f5faa9b3c6fc.png配套标定源码高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多
欢迎点个 在看, 你最 好看!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值