标题:FaceScape: a Large-scale High Quality 3D Face Dataset and Detailed Riggable 3D Face Prediction
链接:https://arxiv.org/pdf/2003.13989
本文主要是两大贡献,一是提供了一个高精度多表情的人脸3D扫描数据集,另一个是提出了一套人脸3D重构算法来拟合面部细节。
首先,他提供的这个数据集叫FaceScape,是用了68个相机阵列拍摄的,有938个人,年龄从16-70岁,每个人拍摄了20种表情,并且数据集中还有个人信息的记录(性别,年龄之类的)。
文中提出的模型如图所示,分为三个部分。
第一个部分就是拟合3DMM模型,作者使用的是双线性的表达方式。一般3DMM参数表达都是“最终人脸=表情参数*表情基底+身份参数*身份基底”这样的线性模型,而本文用的是“最终人脸=总基底*表情参数*身份参数”这样的双线性方程,作者展示了最终效果,说是挺不错的。
第二个部分就是预测置换贴图,置换贴图(displacement map)就是为了给基础的3DMM模型增加一些细节的。作者这里用了pix2pixHD这个GAN模型 ,输入是人脸的纹理图和deforming map,输出就是对应的displacement map了。这个deforming map就是计算了不同表情之间人脸网格对应点的位移向量,其实也就是替代了表情标签而已(个人理解)。
第三个部分就是动态细节生成,其实也就是给每个表情的置换贴图都加上一个attention matrix,最后将所有20中表情的置换贴图通过加权求和的方式得到最终适合目标表情的那个displacement map(因为人类不仅仅只有这20种表情,使用了加权求和就可以表示更多不同的表情了)。最后再将最终的displacement map放到拟合完的3DMM模型上生成最终人脸即可。