EMO:开创音频驱动的肖像视频新纪元

 人工智能咨询培训老师叶梓 转载标明出处

人工智能领域生成逼真且具有丰富表情的动态肖像视频一直是一项技术挑战。传统的技术往往依赖于复杂的3D模型和面部标记,这些方法虽然在一定程度上能够模拟人类面部动作,但常常受限于计算成本、生成效率以及最终视频的自然度和真实感。而且它们在捕捉细微表情变化和个性化面部风格方面也存在不足。针对这一问题,阿里巴巴集团智能计算研究所的研究人员提出了一种名为EMO的新框架,它能够通过音频驱动生成具有丰富表情和多样头部姿态的肖像视频。

EMO框架的基本概念

方法

预备知识:Stable Diffusion(SD)模型,作为EMO框架的基石,是一个在图像合成领域取得显著成就的文本到图像(T2I)模型。SD模型的核心在于其能够将输入的文本描述转换成高质量的图像输出,这一过程是通过变分自编码器(VAE)实现的,它将原始图像的特征分布映射到一个潜在空间中。在这一空间中,图像被编码为一组潜在的特征,这些特征随后可以被解码回原始图像。

在推理阶段,SD模型引入了高斯噪声,这是通过向潜在表示中添加噪声来实现的,从而在特定的时间步骤生成带有噪声的潜在表示。这一步骤是扩散过程的一部分,其目的是在随后的去噪步骤中逐步去除噪声,恢复出清晰的图像。这个过程不仅提高了图像的生成质量,而且增加了生成过程的可控性。

方法的两个主要阶段:Frames Encoding和Diffusion Process

EMO框架的网络管线由两个主要阶段组成:Frames Encoding和Diffusion Process。在Frames Encoding阶段,ReferenceNet发挥着关键作用,它负责从参考图像和运动帧中提取特征。这些特征对于保持视频序列中人物身份的一致性至关重要。ReferenceNet的设计允许它捕捉到输入图像的细节,并在视频生成过程中复用这些信息,确保生成的视频不仅在视觉上连贯,而且在风格和身份上与参考图像保持一致。

在Diffusion Process阶段,预训练的音频编码器对输入的音频信号进行处理,提取出音频特征,这些特征随后用于指导视频帧的生成。面部区域掩模与多帧噪声的结合,为面部图像的生成提供了必要的控制信号。这一阶段的目标是生成与音频同步且具有丰富表情的面部动画,同时保持人物的自然头部运动。

在EMO框架中,主干网络(Backbone Network)扮演着核心角色,负责将输入的多帧噪声潜在表示逐步转化为清晰且连续的视频帧。这一过程是通过去噪实现的,即在每个时间步骤中,网络学习如何去除噪声,恢复出高质量的图像内容。为了实现这一目标,主干网络采用了与原始的Stable Diffusion 1.5模型相似的UNet结构。UNet以其对称的U形结构而著称,它具有编码器和解码器两个部分,编码器逐步降低图像的空间维度,而解码器则逐步恢复这些维度。这种结构使得网络能够捕捉到图像的局部和上下文信息,从而有效地进行去噪。

为了确保视频帧之间的连续性,主干网络中嵌入了时间模块。这些模块使得网络能够在处理视频帧时,考虑到前后帧之间的关系,从而生成平滑且连贯的视频流。时间模块的加入,特别是在UNet结构中的多个分辨率层次上的应用,使得网络能够在不同尺度上理解和模拟时间动态,增强了视频生成的稳定性和自然性。

音频层(Audio Layers)则负责处理输入的音频信号。音频层的目的是提取音频中的特征,并将其转化为可以驱动视频生成的嵌入表示。音频信号中包含了丰富的信息,如语调、强度和节奏等,这些信息对于生成具有相应表情和头部动作的视频至关重要。音频层通过预训练的wav2vec模型来分析音频序列,提取声音的特征。这些特征随后被编码为音频嵌入,它们携带了音频信号的关键信息,并将这些信息注入到视频生成过程中。

为了使生成的视频能够更好地反映音频的动态变化,音频层定义了每个生成帧的声音特征,并将邻近帧的特征结合起来。这意味着,例如,如果一个音频片段预示着即将到来的话语,音频层将能够捕捉到这一变化,并在视频帧中提前反映出来。通过这种方式,音频层确保了视频生成不仅与音频同步,而且能够表现出音频的情感和节奏变化,从而创造出更加生动和富有表现力的视频内容。

在EMO框架中,ReferenceNet和主干网络共享相同的基础结构,这一设计允许它们在特征提取和整合方面高效协作。ReferenceNet的主要任务是从输入的参考图像中提取详细的特征信息。这些特征随后被用于指导视频帧的生成,确保生成的视频在视觉上与原始图像保持一致性。通过自注意力层,ReferenceNet能够识别和强调图像中的关键区域,这些区域对于保持人物身份至关重要。自注意力机制允许网络在不同位置的特征之间建立联系,从而在生成过程中实现更精细的控制。

时间模块的引入是为了处理视频数据中的时间维度。它们通过自注意力机制来理解连续视频帧之间的相互关系,捕获视频中的运动和变化。自注意力时间层的设计允许模型在生成每一帧时,不仅考虑当前帧的信息,还能够考虑到前后帧的内容,实现对视频动态内容的捕捉。这意味着模型能够生成具有平滑过渡和连贯运动的视频,而不是简单的静态图像序列。时间模块的加入显著提升了视频生成的自然度和逼真度,使得最终的视频能够展现出更加丰富和真实的动态效果。

通过ReferenceNet和时间模块的协同工作,EMO框架能够在保持人物身份一致性的同时,生成与音频同步且具有丰富表情和头部动作的视频。ReferenceNet确保了视频生成起点是对输入图像特征的准确捕捉,而时间模块则确保了这些特征在视频的每一帧中都能得到恰当的体现和演变。这种结合了空间特征提取和时间动态理解的方法,为生成高质量的动态肖像视频提供了坚实的技术基础。

面部定位器和速度层是EMO框架中的两个关键组件,它们提供所谓的"弱"控制信号,以增强生成过程的稳定性和可控性。面部定位器通过识别和编码视频中的面部区域,帮助网络了解在生成过程中应该如何定位和调整面部。这种方法比使用刚性的控制信号(如骨骼或3D模型)更为灵活,允许生成更自然和多样化的面部表情。速度层则关注于生成过程中头部运动的速度和频率,通过将头部旋转速度编码为可学习的参数,网络可以控制角色头部动作的快慢,从而与音频信号的节奏和强度相匹配。

训练策略是确保模型能够有效学习并生成高质量视频的关键环节。训练过程分为三个阶段:图像预训练、视频训练和速度层集成。在图像预训练阶段,模型学习如何从单个图像中提取特征,并重建图像内容。这个阶段为后续的视频生成打下了基础。视频训练阶段则进一步让模型学习如何处理多帧视频数据,通过时间模块和音频层的加入,模型开始理解视频帧之间的连续性和相关性,学习根据音频信号来生成动态表现。最后,在速度层集成阶段,模型学习如何控制生成视频的速度和节奏,以实现更加自然和逼真的视频生成效果。

这三个阶段的训练策略是相互关联的,每个阶段都以前一阶段的学习成果为基础,逐步引导模型学习如何生成高质量视频。从单个图像的静态特征学习,到视频帧之间的动态关系理解,再到对速度和节奏的精细控制,每个阶段都为最终生成逼真、同步、富有表现力的视频提供了必要的技能和知识。通过这种分阶段的训练方法,EMO框架能够实现对音频驱动的肖像视频生成的深入掌握,为创造引人入胜的虚拟角色和动态内容提供了强大的技术支持。

实验

研究者首先从互联网上收集了大量的谈话头视频,总时长达250小时,这些视频与HDTF及VFHQ数据集一起被用于训练模型。值得注意的是,由于VFHQ数据集不包含音频信息,它仅被用于训练过程的初期阶段。为了精确地获取视频中的面部信息,研究者采用了MediaPipe面部检测框架来识别并获取面部的边界框区域。进一步地,通过分析每一帧中的面部标记并计算出六自由度头部姿态,研究者能够确定头部旋转的速度,并据此对视频片段进行适当的调整和裁剪,统一为512×512像素的尺寸,以适应模型的输入要求。

在训练阶段,研究者精心设计了不同的批量大小和学习率,以优化模型的性能。在推理过程中,采用了DDIM采样算法来生成视频片段,并为每一帧的生成指定了一个恒定的速度值。这些细节确保了模型在生成视频时的效率和稳定性。

在实验设置方面,研究者对HDTF数据集进行了细致的划分,将其中10%作为测试集,剩下的90%用于模型的训练。在这一过程中,研究者特别注意避免了测试集和训练集中出现相同的角色ID,以确保实验结果的有效性和可靠性。在比较实验中,研究者将EMO框架生成的结果与Wav2Lip、SadTalker、DreamTalk等先前的方法进行了对比。研究者还尝试使用Diffused Heads方法生成结果,但由于该模型仅在具有绿色背景的CREMA数据集上进行了训练,导致在其他类型的视频上生成的结果不尽如人意。

在定性比较中研究者通过视觉结果展示了EMO方法相较于其他先前方法的优势。Wav2Lip在合成时通常会产生模糊的嘴部区域,并且头部姿势相对静态,缺乏动态表现。而DreamTalk和SadTalker虽然在面部表情生成上有所进步,但在头部动作的自然性和动态性上仍有局限。与这些方法形成鲜明对比的是,EMO方法能够根据音频信号生成具有更广泛头部运动和更丰富面部表情的视频。这些视频不仅在视觉上更加逼真,而且在情感传达上也更为准确和生动。

EMO方法与Wav2Lip、DreamTalk等其他方法的比较

在定量比较中研究者采用了多种定量指标来评估视频生成的质量。Fréchet Inception Distance (FID) 用于评估生成帧的质量,通过比较生成图像与真实图像在特征空间中的分布差异来衡量生成图像的真实度。面部相似性 (FSIM) 指标用于评估生成视频中人物身份的保持程度,通过比较生成帧与参考图像之间的面部特征来计算相似性得分。Fréchet Video Distance (FVD) 用于视频级别的质量评估,它考虑了视频帧之间的时序关系,以评估生成视频的整体质量。SyncNet分数用于评估唇部同步质量,即生成视频中的口型与音频信号的同步程度。最后,研究者引入了Expression-FID (E-FID) 指标来评估生成视频中面部表情的丰富度,通过提取视频中的表情参数并计算其与真实数据集之间的差异。

EMO方法与其他方法(Wav2Lip、SadTalker、DreamTalk)在多个定量指标(FID、SyncNet、F-SIM、FVD、E-FID)上的性能比较

这些评估结果不仅验证了EMO方法在生成高质量动态肖像视频方面的有效性,也为进一步优化和改进提供了有价值的反馈。

尽管EMO框架在动态肖像视频生成方面取得了令人瞩目的成就,研究者也指出了其存在的一些局限性。与那些不依赖于扩散模型的方法相比,EMO框架在处理时间上相对较长,这可能会影响到需要实时或快速生成视频的应用场景。由于EMO框架在生成过程中没有采用显式的控制信号,如骨骼动画或3D形态模型,这可能导致在视频中不期望的身体部位(例如手部)的意外生成,进而引起视觉伪影。

研究者提出了可能的解决方案,比如引入特定于身体部位的控制信号,这不仅可以提高视频生成的准确性,还可以增加动作的自然度和真实感。通过这些潜在的改进,EMO框架有望克服当前的限制,进一步提升其在动态肖像视频生成领域的应用潜力。

论文链接:https://arxiv.org/abs/2402.17485

  • 17
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值