Hallo：分级音频驱动视觉合成肖像动画

烧技湾

已于 2024-06-29 16:17:20 修改

阅读量1.2k

点赞数 17

分类专栏： AI & Computer Vision 文章标签：音视频语言模型

于 2024-06-29 16:15:30 首次发布

本文链接：https://blog.csdn.net/wqthaha/article/details/140063513

版权

AI & Computer Vision 专栏收录该内容

59 篇文章 19 订阅

订阅专栏

在这里插入图片描述
团队：百度（王井东大佬），复旦，瑞士ETH，南大

文章目录

概要

肖像图像动画领域，由语音音频输入，在生成逼真和动态肖像合成方面取得了重大进展。本研究在基于扩散模型的方法框架内深入研究了同步人脸运动的复杂性，和创造视觉上吸引人的时间上一致性的动画。作者的创新方法摆脱了传统的范式，即依赖参数化的模型用于中间层的面部表示，作者采用了端到端的扩散模型范式并且介绍了一个分层的语音驱动的视觉合成，以提升音频输入和视觉输出之间的对齐精度，包括嘴唇、面部表情和姿态运动。作者提出的网络框架无缝集成了基于扩散的生成模型、基于UNet的去噪器、时间对齐和参考网络。这个提出的分层语音驱动的视觉合成提供了对面部表情和姿态多样性的自适应控制，能够更有效地针对不同身份进行个性化定制。通过结合定性和定量分析的综合评估，我们的方法在图像和视频质量，唇同步精度和运动多样性方面表现出明显的增强。进一步的可视化和源代码访问可以在https://fudan-generative-vision.github.io/hallo上找到。
在这里插入图片描述
图1:所提出的方法旨在生成时间一致且视觉上高保真的肖像图像动画。这是通过利用参考图像、音频序列和可选的视觉合成权重以及基于分层音频驱动视觉合成方法的扩散模型来实现的。与之前依赖于中间面部表征的方法相比，该方法的结果显示出更高的保真度和视觉质量。此外，该方法提高了唇同步测量的精度，增强了对运动多样性的控制。

介绍

人像动画，又称说话头像动画，旨在从单个静态图像和相应的语音音频中生成一个说话的人像。这项技术在视频游戏和虚拟现实、电影和电视制作、社交媒体和数字营销、在线教育和培训以及人机交互和虚拟助理等各个领域都具有巨大的价值。Stable Diffusion[31]和DiT[27]等作品体现了该领域的重大进展，它们涉及将噪声逐渐纳入潜在空间的训练数据中，然后通过反向过程逐步从该噪声中重建信号。通过利用唇动作[28,52]、面部表情[13,24,34]和头部姿势[24,37,38]的参数化或隐式表示，结合潜在空间中的扩散技术[6,22,39,46,47]，是有可能以端到端的方式生成高质量、逼真的动态肖像。

本研究主要针对人像动画的两个主要挑战:(1)音频输入驱动下的唇动、面部表情和头部姿态的同步与协调。(2)创造高保真动画，具有视觉吸引力并保持时间一致性。

在这里插入图片描述

图9:现有方法与我们提出的方法之间头部和表情运动多样性的定性比较。

为了解决第一个挑战，基于参数化模型的方法[6,24,28,34,38,46,52]最初依赖于输入音频来获得面部标志序列或参数化运动系数，如3DMM [1]， FLAME[19]和HeadNeRF[16]，作为中间表示，随后用于视觉生成。然而，这些方法的有效性受到中间表示的准确性和表达性的限制。相比之下，另一种方法涉及潜在空间中的解耦表示学习[13,22,47]，该方法将面部特征分离为潜在空间中的身份和非身份组件。这些组件是独立学习和跨框架集成的。这种方法的主要障碍是有效地分离各种肖像因素，同时全面地涵盖静态和动态面部属性。此外，在上述方法的潜在空间中引入中介表示或解耦表示破坏了具有高真实感和多样性的时间一致性视觉输出的产生。

为了生成视觉上吸引人且时间上一致的高质量动画，端到端扩散模型的使用[39]利用了扩散模型的最新进展，直接从图像和音频剪辑合成人像视频。这种方法消除了中间表示或复杂预处理步骤的需要，从而能够产生高分辨率、详细和多样化的视觉输出。然而，实现音频和生成的面部视觉合成(包括嘴唇运动、表情和姿势)之间的精确对齐仍然是一个挑战。在本研究中，我们坚持端到端扩散模型的框架，目的是解决对齐问题，同时结合控制表情和姿势多样性的能力。为了应对这一挑战，我们引入了一个分层音频驱动的视觉合成模块，该模块采用交叉注意机制来建立与嘴唇、表情和姿势相关的音频和视觉特征之间的对应关系。然后，使用自适应加权对这些交叉关注进行融合。在这种分层音频驱动的视觉合成模块的基础上，我们提出了一种网络架构，该架构集成了基于扩散的生成模型、基于unet的去噪器[32]、序列一致性的时间对齐[11]和指导视觉生成的ReferenceNet。如图1所示，这种集成方法增强了嘴唇和表情运动与音频信号的有效同步，并提供了对表情和姿势粒度的自适应控制，从而确保了各种视觉身份的一致性和真实感。

在实验部分，我们从定性和定量的角度对我们提出的方法进行了全面的评估，包括对图像和视频质量、嘴唇同步和运动多样性的评估。具体来说，与之前的方法相比，我们的方法在图像和视频质量上有了显著的提高，这是由FID和FVD指标量化的。此外，与先前的基于扩散的技术相比，我们的方法在唇同步方面显示出有希望的进步。此外，我们的方法还提供了根据具体要求调整表情和姿势多样性的灵活性。值得注意的是，我们致力于向开源社区传播我们的源代码和样本数据，目的是促进相关领域的进一步研究。

整体架构流程

在这里插入图片描述
图2 管道概述。具体来说，我们将包含肖像的参考图像与相应的音频输入集成在一起，以驱动肖像动画。可选的视觉合成权重可用于平衡嘴唇，表情和姿势权重。ReferenceNet编码全局视觉纹理信息，以实现一致和可控的角色动画。人脸和音频编码器分别生成高保真人像身份特征，并将音频编码为运动信息。分层音频驱动的视觉合成模块建立了音频和视觉组件(嘴唇、表情、姿势)之间的关系，在扩散过程中使用了UNet去噪器。

技术名词解释

潜在扩散模型。 潜在扩散模型代表了一类在自编码器产生的编码潜在空间内运行的扩散模型，形式化为D(E(·))。潜在扩散模型的一个突出例子是Stable diffusion，它集成了VQ-VAE自编码器[40]和用于噪声估计的时条件U-Net。此外，Stable Diffusion[32]采用CLIP ViT-L/14文本编码器[29]将输入的文本提示转换为相应的文本嵌入，作为扩散过程的条件。在训练阶段，给定一个图像I∈R HI×WI×3及其关联的文本条件cembed∈R Dc，潜表示:
z0 = E(I)∈R Hz×Wz×Dz(1)
经历了一个跨越T个时间步长的扩散过程。该过程被建模为确定性高斯过程，最终以zT ~ N(0,i)结束。稳定扩散的训练目标被以下损失函数封装:L = EE(I)，cembed， λ ~ N(0,1)，t∥λ−ϵθ(zT,t,cembed)∥2 2 ， (2)，t均匀地从{1，…T}。这里，ϵθ表示模型的可训练组件，其中包括一个带有残差块和层的去噪U-Net，这些残差块和层可以促进自注意和交叉注意。这些组件的任务是处理有噪声的潜在变量zt和嵌入的条件嵌入。

训练完成后，使用确定性采样方法重构原始潜在zt，如去噪扩散隐式模型(DDIM)[29]。然后由解码器D对潜在的zt进行解码，以生成最终的图像输出。这种方法不仅保留了生成图像的保真度，而且确保它们与输入辅助条件在上下文上一致，证明了在生成模型中集成条件过程的有效性。

交叉注意作为运动指导。 交叉注意是潜在扩散模型框架的关键组成部分，通过指导信息的流动和焦点，显著增强了生成过程。这种机制使模型能够专注于特定的运动引导和潜在图像表示，从而提高生成的视频与运动条件之间的语义一致性。在一般的视频生成任务中，运动条件可能包括文本提示或密集的运动流。在更专业的领域，如人类图像动画，运动条件可能涉及骨架，语义图，和3D参数流。对于人像动画任务，通常使用音频作为运动条件，并使用交叉注意来有效地整合相关条件。在数学上，交叉注意是使用注意层来实现的，这些注意层处理运动条件的嵌入，表示为cembed，以及有噪声的潜在变量zt。这些层计算注意力分数，决定模型在不同输入方面的关注水平。然后使用分数来衡量每个组件的贡献，创建一个加权和，作为后续层的输入。交叉注意机制可以表示为:CrossAttn(zt, cembed) = attention (Q, K, V)。(3)这里，CrossAttn(zt, cembed)使用以下方法计算注意力分数:Q = WQ·zt, WQ∈R De×Dz (4) K = WK·cembed, WK∈R De×Dc (5) V = WV·cembed, WV∈R De×Dc(6)其中WQ、WK和WV是可学习的投影矩阵。

输出是加权表示，它捕获了扩散过程当前阶段输入条件和潜在图像的最相关方面。潜扩散模型通过引入交叉注意，根据潜变量的演化状态和指定的运动条件动态调整焦点。

层次音频驱动的视觉合成

如图2所示，我们的任务是在给定人脸图像和音频片段的情况下生成一个具有S帧的视频。对于每一帧s，我们表示在扩散时间步长t处对应的潜在表示为z (s) t。

面部嵌入。 人脸嵌入的目标是生成高保真的人像身份特征。与之前利用CLIP[29]对大型图像和文本描述数据集进行联合训练进行通用视觉特征编码的方法不同，我们的方法使用预训练的人脸编码器来提取身份特征cexp∈R Df。这些特征被输入到扩散网络的交叉注意模块，即CrossAttn(z (s) t, cexp)，与潜在交互，生成忠实于输入字符特征的肖像动画。该方法不仅保证了面部特征提取的泛化，而且准确地保留和再现了面部表情、年龄、性别等个体身份特征。

在这里插入图片描述
图3:分层音频驱动的视觉合成的可视化，以及原始full方法和我们提出的分层视听交叉注意之间的视听交叉注意的比较分析。

音频嵌入。 为了增强动画中运动驱动信息的音频编码，我们采用wav2vec[33]作为音频特征编码器。具体来说，我们将来自wav2vec网络最后12层的音频嵌入连接起来，以捕获跨不同音频层的更丰富的语义信息。考虑到上下文对序列音频数据的影响，我们为S帧提取了相应的5秒音频片段。利用三个简单的线性层，我们将预训练模型的音频嵌入转换为{c (s) audio} s s=1，其中c (s) audio∈R Da是s帧的音频嵌入。

分层视听交叉注意。 如图3所示，我们引入了一种分层的视听交叉注意机制，以促进模型学习嘴唇、表情和姿势等视听成分之间的关系。
首先，我们对人脸图像进行预处理，得到蒙版Mlip, Mexp, Mpose∈{0,1}Hz×Wz，分别代表唇区、表情区和姿态区。具体来说，我们使用现成的工具箱MediaPipe来预测面部图像i的地标。MediaPipe预测嘴唇和表情的多个地标的坐标。如果(i, j)在BoundingBox® 0内，则由Yr(i, j) = 1得到边界框掩码Ylip, Yexp∈{0,1}Hz×Wz，(7)其中r∈{lip, exp}，并且BoundingBox®表示r的所有标志的边界框。我们计算Mlip = Ylip， (8) Mexp =(1−Mlip)⊙Yexp， (9) Mpose = 1−Mexp，(10)其中⊙为Hadamard积。

接下来，我们在潜在表征和音频嵌入之间应用交叉注意机制:0 (s) t = CrossAttn(z (s) t, c (s)音频)。(11)我们应用掩模，通过b (s) t = o (s) t⊙Mpose， (12) f (s) t = o (s) t⊙Mlip， (13) l (s) t = o (s) t⊙Mlip得到不同尺度的潜在表示。(14)最后，为了有效地合并这些输出，我们增加了一个自适应模块来处理分层音频引导。具体来说，卷积层得到的输出是:X u Convu(u)， u∈{a (s) t, f(s) t, l(s) t}。（15）

在这里插入图片描述

训练和推理训练

训练过程包括两个不同的阶段:(1)在第一个训练阶段，利用参考图像和目标视频帧对生成单个视频帧。VAE编解码器和人脸图像编码器的参数是固定的，同时允许对ReferenceNet和去噪UNet的空间交叉注意模块的权重进行优化，提高单帧生成能力。提取包含14帧的视频片段作为输入数据，从面部视频片段中随机选取一帧作为参考帧，另一帧作为目标图像。(2)在第二个训练阶段，使用参考图像、输入音频和目标视频数据对视频序列进行训练。参考网和去噪网的空间模块保持不变，重点是增强视频序列生成能力。这一阶段主要侧重于训练分层的视听交叉注意，以建立作为运动指导的音频与嘴唇、表情和姿势的视觉信息之间的关系。此外，还引入了运动模块来改善模型的时效性、一致性和平滑性，用AnimateDiff[11]中已有的权重初始化。在此阶段，从视频剪辑中随机选择一帧作为参考图像。

推理。在推理阶段，网络以单个参考图像和驱动音频作为输入，产生一个视频序列，该视频序列根据相应的音频使参考图像动画化。为了产生视觉上一致的长视频，我们利用前一个视频片段的最后2帧作为下一个视频片段的初始k帧，从而实现视频片段生成的增量推理。

实验设置

实现细节。 实验包括训练和推理在一个具有8个NVIDIA A100 gpu的计算平台上进行。初始和后续阶段分别包含30,000个训练步骤，批处理大小为4，视频尺寸设置为512 × 512。

第二阶段的每个训练实例产生14个视频帧，运动模块的电位与视频连续性的前2个ground truth帧相连接。在这两个训练阶段，学习率为1e-5，运动模块初始化的权值来自Animatediff。为了增强视频的生成，在训练过程中，参考图像、引导音频和运动帧以0.05的概率被丢弃。在推理中，通过将噪声潜伏与运动模块中前一步的最后2个运动帧的特征映射连接起来，确保了序列之间的连续性。

数据集。 如图4所示，我们的数据集包括HDTF(190个片段，8.42小时)和额外的互联网来源数据(2019个片段，155.90小时)。如图4所示，这些视频是由不同年龄、种族、性别的个体在不同的室内和室外背景下拍摄的半身像或特写镜头。为了确保高质量的训练数据，我们进行了数据清洗过程，重点是保留具有强烈嘴唇和音频一致性的单人演讲视频，同时排除场景变化，重大摄像机移动，过度的面部动作，以及完全面向侧面的镜头。利用Mediapipe确定训练视频中的表情和嘴唇活动范围，为构建训练和推理中使用的表情和嘴唇面具奠定基础。经过数据清洗后，我们的训练数据集包括HDTF(188个片段，6.47小时)和互联网来源的数据(1635个片段，102.39小时)，每个训练视频片段包括15帧，分辨率为512 × 512。

评价指标。 在肖像图像动画方法中使用的评估指标包括:Frechet起始距离(FID)、Frechet视频距离(FVD)、同步- c (SyncC)、同步- d (Sync-D)和E-FID。具体来说，FID和FVD测量生成的图像与真实数据之间的相似性，值越低表示性能越好，因此输出越真实。Sync-C和Sync-D从内容和动态方面评估生成视频的唇形同步，Sync-C得分越高，Sync-D得分越低，表示与音频的一致性越好。E-FID基于从Inception网络中提取的特征评估生成图像的质量，提供精细的保真度评估。

基线。 在我们的定量实验中，我们将我们提出的方法与公开可用的SadTalker[53]、DreamTalk[24]、Audio2Head[42]和AniPortrait[46]进行了比较分析。评估是在HDTF、CelebV和提议的数据集上进行的，利用训练和测试分割，其中90%的身份数据被分配用于训练目的。定性比较包括对我们的方法与这些选定方法的评估，考虑到参考图像、音频输入以及每种方法提供的最终动画输出。这一定性评估旨在深入了解我们的方法在生成逼真和富有表现力的说话头部动画方面的性能和能力。
在这里插入图片描述
图6:在CelebV数据集上与现有方法的定性比较。

在这里插入图片描述
表2:在CelebV数据集上与现有人像动画方法的定量比较。

在这里插入图片描述
图7:在不同的肖像风格下，提出的方法的视频生成结果。

讨论

尽管本研究提出了关于肖像动画的进展，但仍存在一些需要进一步探索和考虑的局限性。这些限制强调了未来的研究努力可以对所提出的方法的改进和增强做出贡献的领域:(1)增强的视音频同步。未来的研究可以深入研究更先进的同步技术，潜在地集成复杂的音频分析方法或利用更深层次的跨模式学习策略。这些进步有可能改善面部运动与音频输入的一致性，特别是在以复杂的语音模式或微妙的情感表达为特征的环境中。(2)稳健的时间相干性。需要进一步探索先进的时间相干机制，以解决具有快速或复杂运动的序列的不一致性。开发健壮的对齐策略，可能以序列数据的长期依赖关系或利用循环神经网络模型为指导，可以增强帧对帧的稳定性。(3)计算效率。优化基于扩散的生成模型和基于unet的去噪算法的计算效率势在必行。对轻量级体系结构、模型修剪或高效并行化技术的研究有望使该方法更适用于实时应用程序，同时将资源利用率降至最低。(4)加强多样性控制。在表达和姿势的多样性和保持视觉身份完整性之间的平衡仍然是一个关键的挑战。

未来的努力可能集中在改进自适应控制机制上，可能通过整合更细微的控制参数或复杂的多样性指标。这样的改进将确保更自然和多样化的动画输出，同时保持面部身份的真实性。

社会风险和缓解措施

在本文提出的研究背景下，音频输入驱动的人像动画技术的开发和实施存在社会风险。一个潜在的风险是，创建高度逼真和动态的肖像可能会被滥用于欺骗或恶意目的，比如深度造假。为了减轻这种风险，必须建立道德准则和负责任的技术使用实践。

此外，在动画肖像创作中使用个人图像和声音可能会涉及隐私和同意问题。缓解这些担忧涉及确保透明的数据使用政策、获得知情同意和保护个人隐私权。通过解决这些社会风险并实施适当的缓解措施，该研究旨在促进社会背景下肖像图像动画技术的负责任和道德发展。

小结

本文介绍了一种基于端到端扩散模型的人像动画新方法，解决了音频驱动的面部动态同步和具有时间一致性的高质量动画生成的挑战。提出的分层视听合成模块通过交叉注意机制和自适应加权增强视听对齐。该方法通过集成基于扩散的生成建模、UNet去噪、时间对齐和ReferenceNet，提高了动画质量和真实感。实验评估表明，该系统具有更好的图像和视频质量，增强了唇部同步，增加了运动多样性，并得到了更好的FID和FVD指标的验证。这种方法可以灵活地控制表情和姿势的多样性，以适应不同的视觉身份

烧技湾

关注

17
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hallo：分级音频驱动视觉合成肖像动画

人像动画，又称说话头像动画，旨在从单个静态图像和相应的语音音频中生成一个说话的人像。这项技术在视频游戏和虚拟现实、电影和电视制作、社交媒体和数字营销、在线教育和培训以及人机交互和虚拟助理等各个领域都具有巨大的价值。Stable Diffusion[31]和DiT[27]等作品体现了该领域的重大进展，它们涉及将噪声逐渐纳入潜在空间的训练数据中，然后通过反向过程逐步从该噪声中重建信号。
复制链接

扫一扫