【论文复现】Efficient Emotional Adaptation for Audio-Driven Talking-Head Generation (EAT)-CSDN博客

本文链接：https://blog.csdn.net/weixin_57974242/article/details/135923819

该研究提出EAT模型，通过两阶段解决现有情感生成说话头的网络效率和提示多样性问题。第一阶段增强3D关键点表示，第二阶段引入可学习模块控制情感表达。EAT成功将无表情模型转化为情感可控的模型，实验证明其高效和参数少。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

EAT：高效的情感适应音频驱动的说话头生成。ICCV2023.10

paper：https://arxiv.org/abs/2309.04946

code：https://github.com/yuangan/eat_code?tab=readme-ov-file

论文

介绍

GC-AVT 和 EAMM 算法使用 driven emotional video 和 pose-guiding video 来同时驱动视频的生成，但现有的方普遍有以下两个问题：

网络结构的高效问题：当有多个子任务时，训练或者微调一个 talking head 生成网络的代价就比较大。而且与表情无关的训练数据更多，所以如何高效的重利用这些数据就很重要
提示的多样性：之前的方法一般都是使用一个表情驱动视频，而不是直接将表情特征学习到网络中，所以在实际使用时，需要考虑驱动视频的分辨率、遮挡率、长度等，但没有考虑嘴唇的形状，所以表情并不是很真实

为了解决上面这些问题，就需要能够方便且高效的将预训练好的无表情 talking head 模型迁移到 emotional talking head 模型，且只需要很轻量的 emotional guidance，如图 1 所示。

图1. 情感生成说话头模型。 (a) 以前的工作使用增强的情感引导视频训练或微调整个网络。 (b) EAT通过灵活的指导，包括情感提示或文本引导的CLIP [45] 监督，通过轻量级的适应将情感无关的说话头部模型转化为可控情感的模型。

3D latent keypoints：

表示这些关键点不仅包含二维平面上的位置信息，还包含深度信息，这使得它们能够更加精确地表示面部的三维结构和运动。
latent 意味着这些关键点是在模型的隐空间（latent space）中学习到的，通常是通过网络内部的隐藏层表达的，而不是直接在输入数据中标注的。
总结来说，unsupervised 3D latent keypoints representation 在 face-vid2vid 技术中指的是一种无需人工标注，能够自动学习并表示面部三维结构和动态的方法，它对于实现更加自然和真实的面部视频生成具有重要作用。

因此，本文提出了一个高效的两阶段网络：

第一阶段：先提升 face-vid2vid 得到的 3D 关键点，得到修正后的关键点，然后让模型 A2ET 来学习

第一步：进行 3D 关键点增强。增强无监督的 3D 潜在关键点表示：这里的 unsupervised 3D latent keypoints representation 就是 face-vid2vid 中的方法，也就是作者首先会使用 face-vid2vid 训练好的模型来提取 3D latent 关键点特征，然后作者会将提取到的特征重新增强，也就是重新训练一下得到更好的 3D latent keypoints representation。
第二步：训练声音到表情的 transformer（这里的表情指的是 3D latent 的表情形变，也就是当前表情相对标准无表情时候的关键点的形变哦）引入音频到表情变换器（Audio-to-Expression Transformer，A2ET）：这是一个模型，它学习如何将音频信号映射到上述提到的增强的 3D 潜在关键点。

第二阶段：

提出可学习的引导和适应模块：这些模块用于引导情感表达的生成。具体来说，包括：
深度情感 Prompt（Deep Emotional Prompts）：参数高效的情感适应方法，用于调整和控制生成模型的情感输出，就是对情感通过一个 mapper 得到对应的 prompt 特征
轻量级情感变形网络（Emotional Deformation Network，EDN）：用于学习面部潜在表示的情感变形的网络，会改变面部表情的3D模型以匹配给定的情感状态。也就是给表情形变 Ei 再加一个情感的形变 ΔE
即插即用的情感适应模块（Emotional Adaptation Module，EAM）：用于提高视觉质量的模块，可能会在不降低输出质量的前提下，增强模型生成的面部表情的真实感，使用网络学习两个参数 β 、γ 来调节。

方法

图2. EAT模型概述。 (a) 在第一阶段，音频到表情变换器（A2ET）将潜在的源图像表示、源音频和头部姿势序列转化为3D表情变形。 (b) 在第二阶段，情感引导被注入到A2ET、情感变形网络（EDN）和情感适应模块（EAM）中，用于生成情感说话头部，以虚线表示。 (c) RePos-Net采用3D源关键点Ks和驱动关键点Ki生成帧。

图3. RePos-Net和EAM的架构。RePos-Net从源图像中提取3D外观特征fs。给定3D源关键点和驱动关键点，RePos-Net预测3D流形变矩阵w来转换3D特征fs，并生成输出帧。EAM使用学习到的γ和β将情感引导传递给情感条件下的特征。

图4. 单次情感生成说话头部的定性结果。左侧和右侧分别显示了快乐和惊讶的结果。顶行显示了身份和驱动情感。第二行显示了内容的真实帧。左侧源脸来自LRW [12]，右侧脸来自CREMA-D [6]。

结论

在本文中，我们提出了一种高效的情感适应范式，用于音频驱动的说话头部生成，由两个阶段组成。首先，我们增强了3D潜在表示，并开发了一个变换器架构A2ET，实现了情感无关的说话头部生成。其次，我们通过深度情感提示、EDN和EAM引入可学习的指导，用于情感表达控制。通过这些适应模块，EAT可以快速将预训练的说话头部模型转化为情感说话头部的生成。实验证明，我们的EAT是第一个参数高效且有效的情感说话头部生成范式。

局限性

1）情感训练数据的缺点，如背景和头部姿势的多样性，会影响我们EAT的泛化能力。

2）我们的方法为更广泛的说话头部应用铺平了道路，包括零样本或单样本情感说话头部生成。

参考：【数字人】8、EAT | 为数字人引入表情（ICCV2023）_efficient emotional adaptation for audio-driven ta-CSDN博客