标题:Photo-Realistic Facial Details Synthesis From Single Image
链接:https://arxiv.org/pdf/1903.10873
这篇文章要处理的问题是对输入的2D图片进行高精度3D建模。
文章的亮点在于引入了表情的语义信息,也即FACS。
特征表示与学习
首先,作者使用的是BFM模型,也即使用shape, expression,albedo构建3DMM模型的方式。
shape和expression都是先通过基于landmark的损失来估计。
然后作者考虑到landmark无法区分一些相似的表情,因此引入FACS为模型提供表情语义信息。为了做到这一点,作者首先在affectnet上训练了一个表情识别器,输入一张图片,可以输出一组情绪向量。然后作者随机采样了一堆表情参数输入可微渲染器,从而生成一堆不同表情下的2D图片。然后将生成的2D图片输入表情识别器,得到情绪向量。再输入一个预测FACS的模型得到appearance特征向量,然后将appearance特征向量与情绪向量拼接,成为最后的语义向量。最后构建一个字典,包含了从语义向量到表情向量的映射。这样的效果就是说当我们有一个图片的时候就可以直接输入表情识别器来直接获得他的语义向量,然后查字典得到对应的表情向量了。
建模
然后就是如何进行精细的建模,这里作者提出了一个Deep Facial Detail Net (DFDN)结构,包含两个auto encoder。
第一个AE的输入是图像,预测的目标是displacement map的PCA表示,这样可以让模型学到一个比较粗糙的特征。
然后第二个AE就是进一步优化之前的表示,本质上是一个GAN的结构,generator就是这个AE,输入是随机变量+图像,而输出就是一个displacement map。discriminator的目标就是帮助generator生成更真实的displacement map。
参考链接:ICCV 2019 Oral | 三维"ZAO"脸,单张图片估计人脸几何,效果堪比真实皮肤_我爱计算机视觉-CSDN博客