Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation

楼下创了电瓶车

已于 2023-11-27 15:45:28 修改

阅读量497

点赞数 1

分类专栏： talking head 文章标签：计算机视觉音视频

于 2023-11-23 11:47:31 首次发布

本文链接：https://blog.csdn.net/weixin_51172489/article/details/134573716

版权

talking head 专栏收录该内容

15 篇文章

订阅专栏

论文介绍了一种新的两阶段方法EAT，通过预训练和情感指导，提升音频驱动对话头生成的模型效率和情感控制。EAT包括深层情感提示、情感变形网络和情感适应模块，实现在零样本编辑中生成情绪化的头像。实验结果表明EAT在情绪操纵和视频质量上优于现有方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文随记|Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation用于音频驱动对话头生成的高效情感适应

论文发表于ICCV2023
原文链接:https://arxiv.org/abs/2309.04946

引文

以往的端到端训练的模型对情绪的控制方式一般是由驱动视频控制的。本文利用预训练模型转移到情感指导的方法，提升模型生成效率。

如图，(a) 之前的工作通过增强情感驱动视频来训练或微调整个网络。 (b) 我们的 EAT 通过灵活的指导，包括情感提示或文本引导的 CLIP 监督，通过轻量级的调整，将情绪不可知的头部说话模型转变为情绪可控的模型。

贡献

本文引入了一种新的两阶段范式，称为 EAT，用于解决情绪化的谈话任务。实验表明，在on-shot talking-head生成任务中，这种范式在情绪操纵和视频质量方面都优于以前的方法。
本文提出的架构包括深层情感提示、情感变形网络和情感适应模块。这种设计能够实现从生成没有情感表达的头像到生成有情感表达的头像的高效转换。
第一个为talking-head适应引入灵活指导的研究。通过利用图文模型，可以实现头部说话视频的zero-shot表情编辑，超越了之前方法的能力。

方法

本文提出了一个两阶段范式，Emotional Adaptation for audio-driven Talking-head (EAT)生成方法。首先介绍了增强的三维潜在表示以及使用音频到表情转换器（Audio-to-Expression Transformer，A2ET）进行情感无关的说话头预训练。其次，提出了一种参数高效的情感适应方法，用于快速适应预训练的说话头模型，以应对情感说话头任务。这种方法包括深层情感提示、情感变形网络（EDN）和情感适应模块（EAM）。

Emotion-agnostic Pretraining

以情绪无关（Emotion-agnostic）的预训练模型为基础，构建情感talking-head生成的下游任务。首先增强3D潜在表示来捕捉微表情，然后引入Audio-to-Expression Transformer (A2ET)捕获音频上下文。生成视听同步的3D潜在表情序列。

增强潜在表示

给定一个talking-head框架 i，无监督学习的 3D 潜在关键点 $K i$ 由四个部分组成：身份特定的规范关键点 $Kc$ 、旋转矩阵 $R i$ 、平移 $T i$ 和表情变形 $E i$ 。然后将这些组件以下面等式组合：

基于 3D 潜在关键点，RePosition Network (RePos-Net) 可以将面部表情从一个人转移到另一个人，如图 3 所示。这种转移未能考虑其他面部表情元素，例如眉毛、唇角等。本文在此模型基础上修改：

删除了 OSFV 中的变形先验损失，它惩罚关键点变形的大小。使得潜在关键点能够捕捉到面部表情更微妙的变化；
使用 MEAD 数据集从相同身份的中性和情感视频中获取标记和配对的面部数据。这有助于网络从表情变化中学习更具表现力的面孔；
为了避免与表情无关的背景的影响，只计算面部部分的损失。使用affectnet数据集来增强配对数据，以提高普遍性。

Audio-to-Expression Transformer（A2ET）

视听特征提取

训练transformer需要较大的数据集，并且因素提取在嘈杂或口音情况下会受到限制。为解决这些限制，在数据集Voxceleb2上训练A2ET模型。通过语音识别模型从MFCC特征中提取音频语义特征S1:n和声学特征A1:n。

如图2（a）所示，给定第i帧，从 $2 w + 1$ 个音频帧中提取语义上下文。首先，语音特征Si-w:i+w和头部姿势特征Pi-w:i+w被转换成语音token。第i帧的6DoF（六个自由度，三个平动三个转动）被编码为姿势token p。A2ET的编码器将这些token作为输入。随后，为了捕捉嘴部微动，使用audio encoder和keypoint detector Dk编码声学特征Ai-w:i+w和潜在源图像特征。这些特征被融合以获得声学令牌，A2ET解码器使用这些令牌来输出2w+1个令牌。

表情变形预测

由 k 个 3D 偏移组成的表情变形 Ei 可以根据中心帧 i 的特征进行预测，但优化 3D 表情运动会导致收敛问题。我们观察到，通过自我监督学习的 3D 关键点表现出固有的相互依赖性，只有少数关键点影响面部表情。为了解决这个问题，采用Ei的主成分分析（PCA）来降低维度并消除不必要的信息。然后我们可以根据音频特征预测 3D 表情变形。

Efficient Emotional Adaptation

本文与传统的情绪未知的生成任务不同。本文提出的方法可以从情绪不可知的模型中快速进行情绪适应。方法包括三个模块Deep Emotional Prompts, the Emotional Deformation Network (EDN), and the Emotional Adaptation Module (EAM)，专门设计用于实现预训练 A2ET 的高效情绪适应。论文中提到，此方法可以进行轻量级的适应，为指导下游任务提供了灵活性，例如zero-shot。

情感指导

使用以情绪为条件的可学习指导来生成情绪化的谈话者。假设每种情绪类型都属于潜在空间中的一个不同的子域。如图2（b）所示，采用映射网络M来提取具有潜在代码z ∈ U16的情感条件指导。潜在代码从高斯分布中采样得到。

Deep Emotional Prompt

将情感指导作为A2ET中transformer层的附加输入token，如图 2(a) 所示。分别在 A2ET Transformer 架构中引入浅层和深层情感提示，浅层提示添加到第一层，深层提示添加到之后的每一层。表 4 中的结果表明，与浅层提示相比，深层提示可以带来更好的情绪表达传递。然而，我们也观察到，结合情感提示可能会对视听同步产生不利影响。

Emotional Deformation Network.

为了补充 Ei，一种直观的方法是包含情感表达变形项：

其中， $E_{i}'$ 表示情绪表情变形， $E_{i}$ 表示由A2ET预测的语音相关表情变形，并且 $E_{i}$ 表示情绪相关表情变形。为了预测情绪变形，我们设计了一个称为情绪变形网络（EDN）的子网络，如图2（b）所示。EDN利用A2ET编码器架构来预测 $E_{i}$ ，使用了情感指导和源潜在表示。为了加速适应，使用预训练的A2ET的的编码器初始化EDN。使用 $E_{i}'$ 更新 $E_{i}$ ，可以利用公式1获得潜在关键点。

Emotional Adaptation Module

为了提升视觉质量，设计了一个情绪适应模块（EAM），以生成情绪调节特征。如上图3所示，该模块接收引导嵌入 $e$ 并通过两个全连接（FC）层对其进行处理，以获得一组通道权重 $γ$ 和偏置 $β$ 。使用 tanh 激活函数将 γ 和 β 值限制在 [-1, 1] 范围内：

一旦我们获得了γ和β，我们就可以输入特征x来获得情感特征，其计算公式如下：

其中 Fs 表示通道乘法。如图2所示，EAM可以插入到RePosNet中，以及音频和图像特征提取器。

Zero-shot Expression Editing

由于EAT的快速适应能力，可以从CLIP中提取知识来实现对talking-head的zero-shot文本引导表情编辑。这消除了对情感训练数据的需求，并能够推广到需要罕见表情的应用。

具体而言，我们的目标是利用CLIP损失学习与文本描述的表情相关联的情感引导。为实现这一目标，我们从目标视频中提取头部姿势、源音频和第一帧作为输入。此外，采用目标表情描述进行微调。利用优化后的EAT模型和我们的训练损失，我们仅在映射网络和EAM模块中添加额外的CLIP损失进行微调。具体而言，我们使用CLIP的图像编码器从预测的说话脸中提取图像嵌入，使用其文本编码器从描述中提取文本嵌入。然后，我们迭代地优化图像和文本嵌入之间的距离，以使生成的说话脸与输入文本对齐。