1、综述
今天来看一篇论文,解决的问题是使用音频来驱动3D人脸开口说话,使得口型和表情能对应音频。
论文地址:https://arxiv.org/abs/2308.05428?context=cs
github地址:GitHub - wuhaozhe/audio2face_mm2023
作者认为一个人说话时候的口型和两个因素有关:全局的与音频无关的复合因素(比如每个人的特征、表情等等),以及局部的与音频较为相关的因素(嘴巴口型等等)。这两点作者认为以前的工作并没有很好地解决,因此本文核心创新点着重于解决这两个问题。
2、RELATED WORK
前面的introduction和related work我就直接跳过了,感兴趣的去看一下原文。
3、OBSERVATIONS OF 3D FACE ANIMATION
这里作者验证了the composite nature确实存在,也就是