数字人技术：VASA-1阅读笔记 & 代码汇总

此人姓于名叫罩百灵

已于 2024-05-09 21:39:46 修改

阅读量1.2k

点赞数 14

分类专栏： AIGC 文章标签：笔记机器学习人工智能

于 2024-04-23 11:42:36 首次发布

本文链接：https://blog.csdn.net/xuyangcao123/article/details/138118537

版权

AIGC 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

论文地址：https://www.microsoft.com/en-us/research/project/vasa-1/

整个文章包括两个核心阶段：
阶段一、解偶的人脸表征
阶段二、扩散模型训练

阶段一：人脸表征模型 MegaPortraits

原始论文：https://arxiv.org/pdf/2207.07621

VASA-1中采用的MegaPortraits是解偶人脸表征中重要的模型：随机从一个视频中抽取两帧，分别表示为源图像( $X_s$ )和驱动图像( $X_d$ )，模型将驱动图像的动作（ head pose, facial expression）置于源图像的外表上，生成一个新的图像( $\hat{X}_{s\to d}$ )。

具体地，如下图所示，MegaPortraits的核心流程包括如下步骤：

首先通过一个Appearance Encoder $E_{app}$ ，提取源图像 $X_s$ 的体特征(Volumetric Features, $v_s$ )和全局描述符(Global Descriptor, $e_s$ )。同时，通过一个Motion Encoder $E_{mnt}$ ，预测源图像 $X_s$ 和驱动图像 $X_d$ 的运动特征表征。运动表征包括三个部分，分别表征图像中显式的人脸旋转( $R$ )、平移( $t$ )和隐空间表征( $z$ )。对于源图像，分别用 $R_s$ 、 $t_s$ 和 $z_s$ 表示旋转、平移和隐空间表征；对于驱动图像，分别用 $R_d$ 、 $t_d$ 和 $z_d$ 表示旋转、平移和隐空间表征。
将步骤一中得到的源图像特征表达( $R_s$ , $t_s$ , $z_s$ , $e_s$ )输入3D视图变换生成器(3D Warper Generator, $W_{s\to}$ )，得到 $w_{s\to}$ ；将驱动图像的运动特征和原图像的全局描述符 ( $R_d$ , $t_d$ , $z_d$ , $e_s$ ) 输入3D视图变换生成器(3D Warper Generator, $W_{\to d}$ )，得到 $w_{\to d}$ 。其中，生成器 $W_{s\to}$ 用于去除源图像中的运动和表情信息，生成器 $W_{\to d}$ 用于将驱动图像中的运动和表情信息置于源图像中。这里 $W_{s \to}$ 和 $W_{\to d}$ 的设计初衷是，首先将源图像3D体特征旋转到正面视角，删除从源图像 $z_s$ 中解码的任何面部表情运动，通过3D卷积网络对其进行处理，最后再施加驱动图像中的头部旋转和运动。
将源图像特征表达 $v_s$ 和 $w_{s\to}$ 进行视图变换操作(3D warpping operation), 然后输入3D 卷积网络（ $G_{3D}$ ）;网络输出结果和 $w_{\to d}$ 进行视图变换操作，得到 $v_{s\to d}$ 。
最后，将3D驱动体特征 $v_{s\to d}$ 正交投影至2D，并输入2D卷积网络( $G_{2D}$ )，最终生成预测图像 $\hat{X}_{s\to d}$ 。

阶段二、扩散模型的训练：DiT约束条件

引入了5个约束条件，包括主要注视方向、头部到摄像头的距离、情绪偏移量、为了增加帧间平滑性，还增加了前K帧的语音特征和生成的运动特征，具体如下：

condition signals:

main gaze direcction $g=(\theta, \phi)$ [70], focused direction of the generated talking face.
head-to-camera distance $d$ [16]: normalized scaler controling the distance between the face and camera, affecting the face scale in the
generated video.
emotion offset $e$ [41]: modulates the depicted emotion on the talking face.
last $K$ frames of the audio feature, $A^{pre}$
last $K$ frames of the generated motions, $X^{pre}$

描述	代码
VASA-1-hack	https://github.com/johndpope/VASA-1-hack
数据集相关	https://github.com/johndpope/VASA-1-hack/issues/5
MegaPortarit相关，非官方	https://github.com/johndpope/MegaPortrait/
Emote-hack	https://github.com/johndpope/Emote-hack
Real3DPortrait	https://github.com/yerfor/Real3DPortrait/

数字人技术：VASA-1阅读笔记 & 代码汇总

阶段一：人脸表征模型 MegaPortraits

阶段二、扩散模型的训练：DiT约束条件

相关代码