MeTRAbs: Metric-Scale Truncation-Robust Heatmaps for Absolute 3D Human Pose Estimation 2020

3D Poses in the Wild (3DPW) Challenge Winning Approach ECCV 2020 

1ECCV2020 3dpw3dpose检测赛道第一名

2能够获取实际大小的尺度-米

3对截图图像具有一定的鲁棒性

4能够获取目标的绝对距离位置

问题背景: 

           2.5D 解决的是人的相对根结点的相对深度,但是无法提供实际米为单位的真实深度,只是一个局部相对深度。因此2.5D表示并没有解决规模(人的大小)和距离之间具有挑战性的不确定性。用来做驱动可以。为了弥补2.5的缺陷,一些基于各种先验信息的预处理用来获取实际人体大小和距离相机的距离【35】。然而,当用户的的身高不同时,这些简单的启发式就有困难了。另一个限制是,2.5D被限制在图像边界内的关节估计,当肢体不在图像空间的时候,深度值无法预测。(可以结合人体姿态先验(深度,和骨骼长度)预测一个合理的深度,只是位置确实不知道,只能是一个合理的区域)。

        直接预测3D又有点难:首先,不同的3D关节可能共享相同的2D投影;其次,物体大小和距离之间存在不确定性,因为在摄像机附近的小物体和远处的大物体看起来是一样的。关于解决这些问题的最有效方式还没有达成共识,但是热图估计是公认一个很有前途的方向,因为它直接利用了cnn的卷积结构,将坐标估计问题转化为二进制分类问题即关节是否位于给定位置。为了估计三维姿态,一条成功的流水线是将2D关节热图与深度轴进行延伸,得到一个2.5D的体积表示。2.5D可以给出每一个点的图像空间坐标和相对根节点的距离,虽然这些估计是准确的,但2.5D表示并不能解决人的大小和距离之间具有挑战性的不确定性。因此在2.5D处理完后,在后期处理中需要一个单独的尺度恢复步骤(依赖于统计训练样本的平均骨骼长度)。另一个限制是,2.5D被限制在图像边界内的关节估计。虽然可以使用一个额外的模块来填补缺失的关节,但最好是在一个单一的统一阶段学习完整的骨骼估计。

想直接预测公制单位的3D点,又想使用对神经网络友好的heatmap!!!!!!

 1  本文为什么可以使用heatmap

     本文定义一个新的3D 热图,这些热图的所有尺寸都定义为以米为单位的固定公制范围即2.2m。本文的输入像素位置和输出度量位置只满足一种松散的空间对应形式。然而,令人惊讶的是,这种映射仍然可以通过标准现代FCN主干有效地学习。我们的MeTRo热图可以自然地编码图像之外的身体部分,因为预测体积的边界不对应于图像边界。Soft-argmax还允许使用低分辨率热图进行快速训练。因为其实取加权和,而不是取最大值,最大值容易受到heatmap的分辨率大小影响。我们发现跨步机制的细节是至关重要的,并提出了一种中心跨步方法,输出神经元感受场均匀分布在图像上。

2 为啥本文可以预测图像外的点:

本文训练骨干FCN以端到端方式对图像外关节进行隐式推理、发现尺度线索和学习几何透视反投影。本文的输入像素位置和输出度量位置只满足一种松散的空间对应形式,MeTRo热图表示可以自然地编码图像外的身体部分,因为预测体积的边界不对应于图像边界。由于不需要设计显式的尺度恢复步骤,流程变得更简单,在测试时既不需要知道焦距,也不需要知道根关节距离。

3 如何解决使用2d数据集的问题:

近年来,在训练过程中,除了使用3D数据外,还使用了丰富多样的二维姿态标签图像,取得了较好的野外图像泛化性能。在我们的表示中应用这种弱监督是具有挑战性的,因为网络不做任何基于像素的预测,它的输出是直接在度量尺度上的。为了解决这个问题,我们通过提出对齐层设计了一种比例和平移不变损失计算方法来解决这个问题。结合最近引入的可微软argmax[18],[24],[46],[31]层,我们的方法从图像到最终的3D度量尺度预测都是端到端学习的,如图2所示。Soft-argmax还允许使用低分辨率热图进行快速训练,并在测试时使用更小的步长密集预测以获得更高质量的结果,而不需要解码模块。

重点:如何实现heatmap输出真实尺度?

1 本文的heatmap只所以可以直接输出真实的尺寸在于heatmap的长宽高的坐标系的定义,本文定义为m为单位,大小为2.2m,模型输出的位该2.2m的系数。采用soft-argmax 来获取最终的坐标值。好像没也没啥新颖。

2 结构:采用ResNet-50。ResNet-50的有效stride为32,在训练过程中,从尺寸为256 256的输入图像得到空间尺寸为8 8的热图。体积热图的深度设置为8。当在单人数据集上进行测试时,我们使用有效步幅为4的训练网络,获得空间尺寸为64的热图,这是之前工作中使用的典型尺寸。这种技术其实是通过空洞卷积实现相同等价的感受野,但是feature的尺度不进行下降,得到密集输出。

3 基于中心步长移动:当改变测试时的跨步密度与训练时的跨步密度时,重要的是要考虑热图感受场中心的分布如何受到影响。

4 使用2d标签数据集:由于我们的预测体积是在度量尺度上定义的,并且不与图像空间对齐,因此我们提出了一种对预测尺度和平移不变的2D损失计算方法。为此,我们首先通过舍弃Z坐标,将预测的3D骨架投影到图像平面上。然后,在计算损失之前,我们通过平移和均匀缩放将投影预测与二维像素尺度的地面真实对齐到最小二乘最优拟合。这个对齐层是可微分的,梯度可以通过它反向传播。类似的操作已经被【50】实现。

5 截断估计:因为输出不是图像空间,全靠网络去隐式预测了……

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值