CLIFF:Carrying Location Information in Full Frames into Human Pose and Shape Estimation
一、研究动机:
用Top-Down办法将每个人体单独用Bounding Box框出来后,回归时不知道其在原图片的哪个位置上,因此对物体的扭曲程度也就无从判断了。这种对全局信息的无知显然是不利于回归的。
二、解决方法:
在HMR(a)框架基础上加以改进:
在HMR的基础上加入cx,cy,b,分别代表bounding box的中心横坐标,中心纵坐标,以及box的正方形边长,这样就相当于给了模型一个关于图片全局的位置信息。具体实现的过程就是在重映射回full image的时候由相机内参和网络中回归出的局部偏移量求解出全局的偏移量。
tx表示相机在x轴上的平移参数,ty表示相机在y轴上的平移参数,tz表示相机在z轴上的平移参数。fCLIFF是相机焦距。S是缩放因子。
本文提出了一种新型的3D伪标注方案,因其引入了裁剪框在全图中的位置信息,所得的3D标注更为准确,且其中的先验知识也使得标注信息更加真实合理。
1.预训练:在已有的3D数据集上预训练一个基础模型,其中预训练得到的网络权重可作为后面优化过程中的隐式先验知识。
2.先验推理:将上述基础模型应用在待标注的2D数据上,得到SMPL预测结果。该预测结果未必准确,但它们可以作为很好的显式先验知识,约束后面的优化过程不至于产生奇怪的结果。
3.精调优化:使用2D全图重投影误差作为弱监督信号,先验推理得到的SMPL参数作为正则项,在待标注的2D数据上精调上述基础模型,得到最终的标注模型。
4.最终估计:将上述标注模型应用到待标注的2D数据上,所得的SMPL预测结果即可作为最终的人体3D姿态伪标注。
SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation
- 研究动机:
当前的人体姿态和形状估计(EHPS)方法仍然依赖于有限的训练数据集。研究者希望探索现有的数据资源,为建立健壮、通用的EHPS模型提供关键见解。目前的EHPS方法在各种场景和未见情况下的转移能力较差。研究者希望通过大规模数据训练一个在各种场景中表现均衡的基础模型。希望建立EHPS数据集的第一个系统基准,评估不同数据集的性能,为未来的EHPS研究提供指导。
- 解决方法:
设计了一个极简的框架(称为SMPLer-X),它只保留了最重要的部分。
SMPLer-X由三部分组成:主干网提取图像特征,我们采用了Vision Transformer实现可扩展性;从手和脸的特征图中预测感兴趣的边界盒和作物区域的颈部;估计每个部分参数的回归头。
所以SMPLer-X的主要创新在于利用大模型和大数据集展示了EHPS任务中数据和模型缩放的有效性,为未来的研究奠定了基础。它对模型结构和算法的改进相对较小。