WACV 2024 paper,CVTHead:one-shot的可控头像与顶点特征transformer
paper:2311.06443.pdf (arxiv.org)
论文
摘要
动机:现有的3DMM显式面部控制的方法通常依赖于单个对象的多视图图像或视频,重建过程复杂。此外,传统的渲染非常耗时,限制了实时动画的可能性。本文介绍了cvhead,一种使用基于点的神经渲染从单个参考图像生成可控神经头部头像的方法。cvhead将网格的稀疏顶点作为点集,并使用提出的顶点特征转换器来学习每个顶点的局部特征描述符。这样就可以对所有顶点之间的远程依赖关系进行建模。
贡献:
- 提出CVTHead,一种基于点神经渲染的单次可控头部头像框架,可以在新的表情和相机视角下有效渲染新的人类头部。第一个从单目人脸图像执行基于点的神经渲染的工作。
- 提出顶点-特征Transformer,用Transformer从单幅图像中学习规范空间中的顶点描述子,并证明其优于投影方法。
- 在VoxCeleb1和VoxCeleb2上进行实验,证明该方法取得了与最先进方法相当的性能,同时还提高了效率。
方法
3.1 整体框架
给定源图像Is和驱动图像Id,利用预训练的人脸重建模型[16]获取FLAME模型[34](第3.2节)的源和驱动顶点坐标Vs和Vd。同时,利用提出的顶点特征transformer从源图像中学习规范空间VF∈R N×C中所有顶点的特征描述子(第3.3节),其中C为特征描述子的通道数。然后将驱动顶点及其对应的特征描述子投影到顶点特征图像Pd F∈R H×W×C和深度图像Pd D∈R H×W×1上,其中H和W分别为原始图像的高度和宽度。接下来,使用U-Net G(·)进行神经渲染,以生成合成图像ˆI = G(PF, PD)∈R H×W×3(第3.4节)。该框架实现了端到端训练,允许整个过程联合优化。在推理过程中,该系统能够通过操纵FLAME参数,使渲染的图像具有新的形状、表情、头部姿态和视角。这种灵活性允许生成多样化和可自定义的头像。
图1概述。用预训练的人脸重建网络[16]来获得人脸网格(第3.2节),并利用提出的顶点特征转换器从源图像中获得每个顶点的特征描述符(第3.3节)。然后将稀疏顶点视为点集,并使用基于点的神经渲染来合成图像(第3.4节)。
实验
结论
局限性:所提出方法的性能严重依赖于3D网格重建的准确性,特别是在设置中利用DECA[16]。需要进一步提高3D网格重建技术的准确性和鲁棒性,以解决这些限制。
本文提出一种新方法,利用基于点的神经渲染,从单一参考图像生成显式可控的头部化身。将头部网格的稀疏顶点视为一个点集,利用顶点-特征转换器来学习每个顶点的局部特征描述子。实验结果表明,基于点的绘制方法可以有效地取代传统的基于图形的绘制方法,提高绘制效率。所提出方法可以与各种生成工具(如扩散)无缝集成,以进一步提高生成图像的质量。
复现
inference:
作者示例:输入:
输出:
自测:输入:
输出:
结论:输出会大大降低分辨率,图1的稳定性比图2重要(毕竟是在图1的脸上生成)