1.人体姿态估计概述
人体姿态估计的概念
从给定的图像中识别人脸、手部、身体等关键点
输入:图像
输出:所有关键点的像素坐标
下游任务:
行为识别:
PoseC3D:基于人体姿态识别行为动作
CG、动画:
人机交互:
动物行为分析:
2D姿态估计
2D人体姿态估计的任务描述:在图像上定位人体关键点的坐标
两种基本思路:
- 基于回归:在图像上定位关键点坐标(建模成一个回归问题)。
- 基于热力图:并不直接回归关键点坐标,而是预测关键点位于每个位置的概率。
热力图可以基于原始关键点坐标生成,作为训练网络的监督信息;网络预测的热力图也可以通过求极大值等方法得到关键点的坐标。模型精度相对回归模型更高,但算力消耗更大。
基于热力图的方法的具体流程:
(1)从数据标注生成热力图,对于每个关键点都要通过如下图所示的过程。
(2)使用热力图训练模型
(3)从热力图还原关键点
从某个点的热力图中还原出关键点的坐标位置的方法:
朴素方法:求热力图最大值的位置
Integral Human Pose Regression:归一化热力图形成点位于不同位置的概率,再计算位置的期望
多人姿态估计:自顶向下方法
设计思路:
1:使用目标检测算法检测出每个人体
2:基于单人图像估计每个人的姿态
基于回归的自顶向下方法模型:DensePose
基于热力图的自顶向下方法模型:
Hourglass(2016,利用残差思想构建,每个立方为一个残差模块,可级联,提出是达到SOTA,后逐渐被超过)、
Simple Baseline(2018,追求结构简单)、
HRNet(2020,实现不同分辨率下的尺度融合)。
自底向上方法
PAF & OpenPose(2020)
单阶段方法
SPM(2019,2D->3D)
基于Transformer方法
PRTR(2021)
3D人体姿态估计
3.1 3D姿态估计的概念
VideoPose3D:基于单帧图像预测2D关键点,再基于多帧2D关键点结果预测3D关键点位置。通过给定的图像预测人体关键点在三维空间中的坐标,可以在三维空间中还原人体的姿态,隐式借助了语义特征或人体的刚性实现3D的推理
输入:图像
输出:所有人的所有关键点的空间坐标
难点:从2D图像(或视频)恢复3D信息
评估指标
Percentage of Correct Parts(PCP)以肢体检出率作为评价指标
Percentage of Detected Joints(PDJ) 以关节点的位置精度作为评价指标
Percentage of Correct Key-points(PCK)以关键点的检测精度作为评价指标
Object Keypoint Similarity(OKS)based mAP以关键点相似度作为评价指标计算mAP
DensePose
网络基本结果:Mask-RCNN+DenseReg=DensePose-RCNN
先进行前景与背景的预测,再进行人体每一部分的精确回归。
Body Mesh
人体表面参数化:
混合蒙皮技术(Blend Skinning)
人体参数化模型
SMPL
SMPLify
HMR
本人基础比较薄弱,理解的还不是很透彻,需要再深入的学习一下