MetaPortrait Identity-Preserving Talking Head Generation

论文介绍了一种新的图像生成框架MetaPortrait,通过密集Landmarks和元学习加速个性化训练,实现实时高质量的头像生成,强调了时间一致性。方法包括特征提取、扭曲预测、身份保持细化和超分辨率增强。
摘要由CSDN通过智能技术生成

论文随记|MetaPortrait: Identity-Preserving Talking Head Generation with Fast Personalized Adaptation具有快速个性化适应功能的保留身份的头像生成

本文发表在CVPR2023

任务类型:图像驱动图像

原文链接:原文

贡献:
  • 提出了一个框架,显著提升了真实肖像生成时的身份保护能力;
  • 第一个探索元学习来加速个性化训练的团队,从而以合理的成本获得超高质量的结果。;
  • 超分辨率模型能够有效增强生成图像细节,而不引入时间上的闪烁。

3 方法

模型概述

模型按照上图2,可以分为四个部分如下:

(a)给定源图像和t个驱动帧序列,对其提取Landmark特征并编码;

(b)根据concate的输入,估计源图像和驱动帧之间的扭曲流 w w w

(c)使用ID保持网络,进一步细化扭曲后的输入源图像;

(d)增强上采样并生成最终的高分辨率图像。

3.1 保持身份的One-shot基本模型
① Warping prediction with dense landmarks.

为了生成准确的集合扭曲感知场,使用dense Landmark(覆盖了头部669个点)进行估计。

  • Landmark提取:一种朴素的方法是在输入网络之前对Landmark进行逐通道串联。然而,由于输入通道的数量非常庞大,处理这样的输入在计算上有难度。因此,本文提出了一种高效的方法来处理这些Landmark。绘制相邻连接的Landmark点,每个连接用不同的颜色编码,如图2(a)所示。

  • 扭曲预测: x i n = C o n c a t ( I s , I s l d m k , I d l d m k ) x_{in} = Concat(I_{s},I_{s}^{ldmk},I_{d}^{ldmk}) xin=Concat(Is,Isldmk,Idldmk),用于扭曲场预测。通过从输入导出的潜在运动编码 z w z_{w} zw来增强扭曲能力, z w = E w ( x i n ) z_{w} = E_{w}(x_{in}) zw=Ew(xin)。其中 E w E_{w} Ew是一个CNN编码器, z w z_w zw通过AdaIN被注入流估计网络 F w F_w Fw

通过 w = F w ( x i n , z x ) w = F_{w}(x_{in},z_{x}) w=Fw(xin,zx)预测稠密流场。

② ID-preserving refinement network.

模块引入原因:利用预测流场直接扭曲容易产生伪影与身份损失。本文通过一个保持身份的细化网络解决身份信息丢失。

image-20231208151442803

上图右侧 h i n l h_{in}^{l} hinl表示网络的第i层输入特征。

  • 身份特征:通过AdaIN使用身份嵌入 z i d z_{id} zid调制 h i n l h_{in}^{l} hinl来获得身份特征输出 h i d l h_{id}^{l} hidl z i d z_{id} zid通过预训练的人脸识别模型 E i d E_{id} Eid提取。

  • 运动特征:通过特征线性调制(Film,Feature-wise Linear Modulate)模块,以扭曲后的图像 I ^ s \hat Is I^s h i n l h_{in}^{l} hinl作为输入,获得了运动感知特征 h m o t i o n l h_{motion}^{l} hmotionl,因此其中也包含了驱动视频的特征。

基于上述特征,通过基于注意力的方法进行特征融合。一个可学习的融合mask如下:

image-20231208153443094

其中 σ 表示 sigmoid 激活函数。通过这种方式,模型学习如何将身份感知特征正确地注入到身份相关区域。第l层的输出可以根据掩码Ml融合特征得到,即:

image-20231208153607526

训练目标

感知损失:驱动图像 I d I_d Id和细化输出 I ~ y \tilde I_y I~y之间。

身份损失:image-20231208154732378

采用多尺度补丁鉴别器Ladv来增强输出的照片真实感。添加L1损失提升眼部嘴部等的生成质量,总损失如下:

image-20231208155602283

3.2 基于元学习的快速个性化

image-20231209152152122

本文认为,one-shot通用模型的生成无法完整恢复特定的人的特征和遮挡。因此,个性化的微调是有必要的。基于这个原因,本文提出了一种元学习模型,可以在几个训练步骤内根据低样本个人数据调整初始权重。

给定一个人j,从预训练的模型权重 ϕ \phi ϕ开始,通过最小化生成图像的误差,来达到最佳个人权重 ϕ ^ j \hat \phi_{j} ϕ^j

image-20231209102217205

其中 G ϕ i G_{\phi_{i}} Gϕi代表整个生成器的权重。一般使用K步随机梯度下降(SGD)来更新权重:

image-20231209102451719

本文的目标是找到一个最佳初始化 ϕ ^ K \hat \phi^{K} ϕ^K,它可以在K 步 SGD 更新后接近任何个人模型:

image-20231209103710282

本文认为:预训练的优化目标是最小化所有训练数据的总体误差,但它并不一定能找到适合个性化(最适合个人肖像)的最佳权重,因此有必要对模型做一些适应步骤、微调。

利用模型无关元学习(MAML)的思想来弥补这一差距,并实现快速个性化训练。(使用式(7)直接优化初始化权重涉及二阶导数的计算,这在大规模训练中计算量很大。因此,我们利用 Reptile,一种基于 MAML 的一阶方法来获得合适的初始化以实现快速个性化)

个性化训练方法:对于每个人j,从初始模型 ϕ j 0 = ϕ \phi_{j}^{0} = \phi ϕj0=ϕ开始。采样一个batch的个人训练数据,进行K步微调后的模型如下:

image-20231209105932469

随后进行个人更新步骤,个人模型 ϕ j k \phi_{j}^{k} ϕjk ϕ j 0 \phi_{j}^{0} ϕj0之间的聚类被用作更新初始化模型 ϕ \phi ϕ的梯度:

image-20231209110134125

其中 β \beta β被定义为元学习率,完整算法如下所示:

image-20231209110242794

3.3 时域一致超分辨率网络

image-20231209151615695

现存问题:本文认为现有的利用单帧超分辨率作为最后生成阶段的方法,忽略了时间一致性和稳定性,并且以逐帧方式进行生成往往会产生纹理闪烁,严重影响视觉质量。本文模型会考虑到多个相邻帧确保时间一致性。

本文利用预训练的StyleGAN和3D卷积,提出了一个时域一致的超分辨率模块。3D卷积可以增强时空域的质量。而StyleGAN包含了丰富的面部先验信息。

如图2所示,将t个串联的视频帧序列输入到由3D卷积组成的U-Net网络中,并在时间维度上进行反射填充。为了确保预训练的生成质量,使用了预训练的2D恢复人脸网络初始化U-Net中的3D卷积权重。

UNet 解码器的这些时空增强特征通过 FiLM 进一步调制预训练的 StyleGAN 特征。获得超分辨率的帧如下:

image-20231209113615539

训练损失:使用感知和L1损失,将输出 I y ′ I_y' Iy的结果优化到512×512的真实标签图像 I d I_d Id

4 实验

评价指标
指标描述
FID用于评估自我重建的保真度
LPIPS用于评估自我重建的保真度
AED平均表情距离,用于测量运动转移质量
APD平均姿势距离,用于测量运动转移质量
LPIPS (不同个性化时期)用于基于元学习的快速个性化,显示在不同个性化时期的 LPIPS
Ewarp用于评估时间一致性的变形误差
4.2 与sota方法对比

通过下方图和表的定性、定量对比。证明了本文提出的方法在自重建和跨身份重建方面实现了最佳的定量保真度,并且在运动转移质量上取得了有竞争力的水平。

image-20231209140212531

在这里插入图片描述

image-20231209140347378

4.3 快速个性化评估

为了实现更快的收敛,使用元学习策略微调基础模型,为后续的个性化提供更好的权重初始化。在图7中,将本文的元学习模型与基础模型和先前的基线模型 FOMM进行了个性化速度的评估。本文的元学习模型只需0.5个epoch即可将 LPIPS 降至0.14,相对于基础模型,速度提高了3倍,相对于 FOMM 提高了4倍。图6比较了本文的方法和 FOMM在相同时期的个性化,展示了在模糊区域(例如牙齿、眼睛和皱纹细节)的快速适应速度。

image-20231209141517493

在这里插入图片描述

4.4 时间超分辨率的评估

表格2中的定量结果显示,尽管朴素的2D超分辨率提高了每帧的保真度,但也带来了更多的闪烁和比简单的双三次上采样更大的变形误差(0.0242)。为了实现时间上的一致结果,作者结合了一个使用面部先验的3D卷积组成的U-Net,将生成视频的Ewarp从0.0242降低到0.0213,同时保留了2D面部细节。

image-20231209142738941

4.5 base model消融实验

消融研究验证基础模型中驱动动作和源身份表示的有效性。如果将669个密集Landmark替换为稀疏Landmark,扭曲的源图像的 LPIPS 会下降0.2。为评估身份感知细化,去除身份输入导致身份损失从0.1296增加到0.2144。

image-20231209145156005

5 结论

本文提出了一个新颖的框架,用于保持身份的one-shot说话头合成。为了保持源身份,在扭曲网络中利用准确的密集Landmark,并在细化过程中使用显式的源身份。此外,通过使用元学习将其训练时间缩短到30秒,我们显著提升了个性化模型的适用性。最后,通过使用3D卷积和生成先验增强了最终分辨率和时间一致性。实验证明了sota性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值