这篇论文是浙江大学CAD实验室的一篇发表在CVPR2019上的论文,论文作者董峻廷等人。论文题目是快速且鲁棒的多视角下多人三维姿态估计,该方法比之前的最先进的方法在相应的基准数据集上效果有非常明显的提升(Campus数据集96.3% vs. 90.6%, Shlef数据集96.9% vs. 88%), 同时,该算法将运行速度也提升了十几倍.
论文地址: https://arxiv.org/pdf/1901.04111.pdf
代码地址: https://github.com/zju3dv/mvpose
一、问题的背景
论文题目中有3D pose估计,首先知道什么是3D pose 估计。如图输入一张image,经过一个CNN,得到2D heatmap,也就相当于2D pose,是2xN的一组关键点的坐标。3D pose和2D pose 类似,是一组3xN的关键点的坐标。输入一些图片,可以是单幅图像,也可以是多视角图像,或者是视频帧,输出的话是一组Nx3的关键点。下图的工作是从多视角图像去估计这个人的3D pose,对于每一个视角图片,经过一个CNN得到一个2D pose。这些2D pose ,经过一些三角化的方法得到3D pose,这个是CVPR2017的方法,但是这篇论文是处理的单人的场景,和现实中实际处理的东西不是那么吻合。
在该篇论文中处理的是更具挑战性的课题,有更多的人场景中交互。地方比较小,有非常严重的遮挡。现在主要面临的挑战是:寻找对应的人很困难。