Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation

论文介绍了一种新的两阶段方法EAT,通过预训练和情感指导,提升音频驱动对话头生成的模型效率和情感控制。EAT包括深层情感提示、情感变形网络和情感适应模块,实现在零样本编辑中生成情绪化的头像。实验结果表明EAT在情绪操纵和视频质量上优于现有方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文随记|Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation用于音频驱动对话头生成的高效情感适应

论文发表于ICCV2023
原文链接:https://arxiv.org/abs/2309.04946

引文

以往的端到端训练的模型对情绪的控制方式一般是由驱动视频控制的。本文利用预训练模型转移到情感指导的方法,提升模型生成效率。

image-20231121164630251

如图,(a) 之前的工作通过增强情感驱动视频来训练或微调整个网络。 (b) 我们的 EAT 通过灵活的指导,包括情感提示或文本引导的 CLIP 监督,通过轻量级的调整,将情绪不可知的头部说话模型转变为情绪可控的模型。

贡献
  • 本文引入了一种新的两阶段范式,称为 EAT,用于解决情绪化的谈话任务。实验表明,在on-shot talking-head生成任务中,这种范式在情绪操纵和视频质量方面都优于以前的方法。
  • 本文提出的架构包括深层情感提示、情感变形网络和情感适应模块。这种设计能够实现从生成没有情感表达的头像到生成有情感表达的头像的高效转换。
  • 第一个为talking-head适应引入灵活指导的研究。通过利用图文模型,可以实现头部说话视频的zero-shot表情编辑,超越了之前方法的能力。

方法

image-20231122104730128

本文提出了一个两阶段范式,Emotional Adaptation for audio-driven Talking-head (EAT)生成方法。首先介绍了增强的三维潜在表示以及使用音频到表情转换器(Audio-to-Expression Transformer,A2ET)进行情感无关的说话头预训练。其次,提出了一种参数高效的情感适应方法,用于快速适应预训练的说话头模型,以应对情感说话头任务。这种方法包括深层情感提示、情感变形网络(EDN)和情感适应模块(EAM)。

Emotion-agnostic Pretraining

以情绪无关(Emotion-agnostic)的预训练模型为基础,构建情感talking-head生成的下游任务。首先增强3D潜在表示来捕捉微表情,然后引入Audio-to-Expression Transformer (A2ET)捕获音频上下文。生成视听同步的3D潜在表情序列。

增强潜在表示

给定一个talking-head框架 i,无监督学习的 3D 潜在关键点 K i Ki Ki由四个部分组成:身份特定的规范关键点 K c Kc Kc、旋转矩阵 R i Ri Ri、平移 T i Ti Ti 和表情变形 E i Ei Ei。然后将这些组件以下面等式组合:

image-20231122100614064

基于 3D 潜在关键点,RePosition Network (RePos-Net) 可以将面部表情从一个人转移到另一个人,如图 3 所示。这种转移未能考虑其他面部表情元素,例如眉毛、唇角等。本文在此模型基础上修改:

  • 删除了 OSFV 中的变形先验损失,它惩罚关键点变形的大小。使得潜在关键点能够捕捉到面部表情更微妙的变化;
  • 使用 MEAD 数据集从相同身份的中性和情感视频中获取标记和配对的面部数据。这有助于网络从表情变化中学习更具表现力的面孔;
  • 为了避免与表情无关的背景的影响,只计算面部部分的损失。使用affectnet数据集来增强配对数据,以提高普遍性。

image-20231122101319143

Audio-to-Expression Transformer(A2ET)
视听特征提取

训练transformer需要较大的数据集,并且因素提取在嘈杂或口音情况下会受到限制。为解决这些限制,在数据集Voxceleb2上训练A2ET模型。通过语音识别模型从MFCC特征中提取音频语义特征S1:n和声学特征A1:n。

如图2(a)所示,给定第i帧,从 2 w + 1 2w+1 2w+1个音频帧中提取语义上下文。首先,语音特征Si-w:i+w和头部姿势特征Pi-w:i+w被转换成语音token。第i帧的6DoF(六个自由度,三个平动三个转动)被编码为姿势token p。A2ET的编码器将这些token作为输入。随后,为了捕捉嘴部微动,使用audio encoder和keypoint detector Dk编码声学特征Ai-w:i+w和潜在源图像特征。这些特征被融合以获得声学令牌,A2ET解码器使用这些令牌来输出2w+1个令牌。

表情变形预测

由 k 个 3D 偏移组成的表情变形 Ei 可以根据中心帧 i 的特征进行预测,但优化 3D 表情运动会导致收敛问题。我们观察到,通过自我监督学习的 3D 关键点表现出固有的相互依赖性,只有少数关键点影响面部表情。为了解决这个问题,采用Ei的主成分分析(PCA)来降低维度并消除不必要的信息。然后我们可以根据音频特征预测 3D 表情变形。

Efficient Emotional Adaptation

本文与传统的情绪未知的生成任务不同。本文提出的方法可以从情绪不可知的模型中快速进行情绪适应。方法包括三个模块Deep Emotional Prompts, the Emotional Deformation Network (EDN), and the Emotional Adaptation Module (EAM),专门设计用于实现预训练 A2ET 的高效情绪适应。论文中提到,此方法可以进行轻量级的适应,为指导下游任务提供了灵活性,例如zero-shot。

情感指导

使用以情绪为条件的可学习指导来生成情绪化的谈话者。假设每种情绪类型都属于潜在空间中的一个不同的子域。如图2(b)所示,采用映射网络M来提取具有潜在代码z ∈ U16的情感条件指导。潜在代码从高斯分布中采样得到。

Deep Emotional Prompt

将情感指导作为A2ET中transformer层的附加输入token,如图 2(a) 所示。分别在 A2ET Transformer 架构中引入浅层和深层情感提示,浅层提示添加到第一层,深层提示添加到之后的每一层。表 4 中的结果表明,与浅层提示相比,深层提示可以带来更好的情绪表达传递。然而,我们也观察到,结合情感提示可能会对视听同步产生不利影响。

image-20231122143902952

Emotional Deformation Network.

为了补充 Ei,一种直观的方法是包含情感表达变形项:

image-20231122144355158

其中, E i ′ E_{i}' Ei表示情绪表情变形, E i E_{i} Ei表示由A2ET预测的语音相关表情变形,并且 △ E i △E_{i} Ei表示情绪相关表情变形。为了预测情绪变形,我们设计了一个称为情绪变形网络(EDN)的子网络,如图2(b)所示。EDN利用A2ET编码器架构来预测 △ E i △E_{i} Ei,使用了情感指导和源潜在表示。为了加速适应,使用预训练的A2ET的的编码器初始化EDN。使用 E i ′ E_{i}' Ei更新 E i E_{i} Ei,可以利用公式1获得潜在关键点。

Emotional Adaptation Module

image-20231122150830324

为了提升视觉质量,设计了一个情绪适应模块(EAM),以生成情绪调节特征。如上图3所示,该模块接收引导嵌入 e e e并通过两个全连接(FC)层对其进行处理,以获得一组通道权重 γ γ γ和偏置 β β β。使用 tanh 激活函数将 γ 和 β 值限制在 [-1, 1] 范围内:

image-20231122151108693

一旦我们获得了γ和β,我们就可以输入特征x来获得情感特征,其计算公式如下:

image-20231122152219333

其中 Fs 表示通道乘法。如图2所示,EAM可以插入到RePosNet中,以及音频和图像特征提取器。

Zero-shot Expression Editing

由于EAT的快速适应能力,可以从CLIP中提取知识来实现对talking-head的zero-shot文本引导表情编辑。这消除了对情感训练数据的需求,并能够推广到需要罕见表情的应用。

具体而言,我们的目标是利用CLIP损失学习与文本描述的表情相关联的情感引导。为实现这一目标,我们从目标视频中提取头部姿势、源音频和第一帧作为输入。此外,采用目标表情描述进行微调。利用优化后的EAT模型和我们的训练损失,我们仅在映射网络和EAM模块中添加额外的CLIP损失进行微调。具体而言,我们使用CLIP的图像编码器从预测的说话脸中提取图像嵌入,使用其文本编码器从描述中提取文本嵌入。然后,我们迭代地优化图像和文本嵌入之间的距离,以使生成的说话脸与输入文本对齐。

训练目标

监督损失:

image-20231122154244777

Latent Loss

用于优化预测潜在关键点。

image-20231122155332732

N表示帧数,PEi表示第i帧中表情变形的预测PCA(前文提到),Ki是根据公式1传输的3D潜在关键点。带^的表示groundtruth。由于Pi不包含情绪表情变化 △ E i △E_{i} Ei,当训练EDN时只使用公式6中3D关键点的损失。

Sync Loss

wav2lip中引入的同步损失。基于SyncNet的结构,本文训练了一个梦想来区分中性和情感数据集中的视听同步。

image-20231122160648437

输入语音嵌入 s 和生成的视频嵌入 v 分别由 SyncNet 中的语音编码器和图像编码器提取。

Reconstruction Loss
  • 面部区域:L1损失

  • 整个帧:感知损失

为了改善表情生成,仅在面部区域采用 L1 重建损失。此外,为了生成更清晰的帧,使用预训练的 VGG19 模型将感知损失应用于整个帧。

CLIP Loss

zero生成过程中,由于没有groundtruth计算Lrec,使用CLIP损失代替。

CLIP 损失使用预训练的 CLIP 模型计算生成的人脸嵌入与文本描述之间的相似度。具体来说,CLIP 损失是通过图像和文本的归一化嵌入之间的余弦相似度来计算的。

实验

talking-head生成

为了验证 EAT 的有效性,作者对情绪未知和情绪谈话头生成进行了实验。

与情绪无关的talking-head生成

如表 1 所示,本文的方法在与情绪无关的人物头像生成的视觉质量方面优于其他方法。此外,EAT 可以提高预训练的头部说话模型的性能。

image-20231122162737541

情感talking-head生成

按照 EAMM 的设置,在公开的 MEAD 测试集上比较情感说话人的生成。对于所有方法,中性源帧均来自 EAMM。

表1显示EAT 在大多数指标中都能实现最佳性能。具体来说,与其他方法相比,EAT 实现了更好的视频质量和更高的情感准确性。图 4 直观地展示了在one-shot设置中产生真实且全面的情感表达的能力。

image-20231122163116436

Tuning Efficiency

image-20231122164103553

即使数据有限,EAT 也可以有效地使预训练的 A2ET 模型适应子任务。如图5所示,无论是全数据还是半数据,EAT都可以在一小时内超越SOTA结果。我们还可以在两小时内仅用四分之一的数据来实现相当的性能。

Zero-shot Expression Editing

如图 7 所示。给定一个中性视频,将第一帧视为源图像,并通过文本编辑表情描述。我们注意到,文字描述将决定编辑性能,需要精心设计。

image-20231122165410351

消融实验
增强潜在表示

如下表所示,相比未增强的表示,增强后的性能更优。

image-20231123101155407

Prompt

表4表明,深层提示比浅层提示更好的学习了情绪面部变形,但对视听同步有反作用。

image-20231123101527478

提出的各组件模块

表 5 显示所有三个组件都可以提高视频质量。

  • 深层情感提示可以将谈话者的知识转移到情感谈话者的生成上,但会牺牲同步性。尽管深层的情感提示会导致强烈的情感表达,但输出结果却偏离了事实真相。

  • 通过结合 EDM 和 EAM,图像质量和对真实情况的保真度得到了增强,PSNR/SSIM 值的上升就证明了这一点。然而,这是以牺牲情绪强度和准确性为代价的。

image-20231123102504528

各损失函数

对微调阶段的感知损失、潜在损失、同步损失和L1损失进行了消融研究。它表明同步损失有助于同步,而其他同步丢失则有助于表达保真度。

image-20231123103307112

结论

本文提出了一种用于音频驱动talking-head的情感适应范式。将模型命名为EAT。由两个阶段组成。

  • 首先,增强了3D表示并且设计了一个基于transformer架构的A2ET,实现情感无关的talking-head生成。
  • 其次,通过在transformer深层进行情感的prompt,EDN和EAM模块引入了可学习的情感控制指导。

通过这些适应模块,EAT 可以快速将预训练的人物头像模型转换为情感人物头像生成。并通过实验验证了其性能,EAT 是第一个参数高效且有效的情感谈话者生成范例。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值