姿态估计
姿态估计是通过计算机视觉技术,从给定的图像中识别人物的关键点,以及恢复人物的3D模型。姿态估计的下游应用包括识别动作、驱动动画、人机交互、动物行为分析等。
2D姿态估计
2D姿态估计任务定义为在图像上的定位人体关键点坐标。目前有两种方法可以实现这个任务。
回归问题
首先,可以将2D姿态估计转化为回归问题,但由深度模型直接回归坐标会存在困难,其精度也不高。
基于热力图
其次,预测关键点位于每个位置的概率,这个方法被称为基于热力图的方法。热力图可以与关键点相互转换,相比直接回归坐标,热力图预测更易于实现且具有更高的精度。然而,热力图的计算消耗大于直接回归。
数据标注到热力图
从目标检测器中检测到的bounding box(包围盒)中心后,使用高斯分布对关键点进行标注。这种方法使得热力图中心点的数值最大,其他点降低。
训练过程
训练过程主要包括以下4个步骤:
- 标注关键点
- 转换为真值热力图
- 模型预测热力图
- 逐点对比计算损失。
在训练过程中,存在两个问题:当两个关键点重合时,求关键点的最大值不一定是最优方法;并且,计算损失的时候需要进行微分,并实现连续无量化误差,才能进行端到端优化。为了解决这些问题,我们采用期望的方式来进行计算,这样可以使得模型更加精确并提高它的效率。
多人姿态估计方法
在实际场景中,通常需要同时处理多个人物的姿态估计。研究人员也提出了许多针对多人姿态估计的方法,这些方法可以大致分为自顶向下和自底向上方法。
自顶向下方法
自顶