A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 翻译

青灯有味是儿时

已于 2022-06-16 10:00:34 修改

阅读量2.5k

点赞数 6

文章标签：人工智能生成对抗网络

于 2022-06-15 22:38:28 首次发布

本文链接：https://blog.csdn.net/weixin_45797937/article/details/125305543

版权

你所需要的语音对口型专家，自然场景下的进行语音对口型的生成

在这里插入图片描述图1: 我们的新型Wav2Lip模型在动态的、无约束的人脸对话视频中产生了明显更准确的唇部同步。定量指标表明，我们生成的视频中的唇部同步几乎与真实同步的视频一样好。因此，我们相信我们的模型可以实现广泛的现实世界的应用，而之前的独立于说话人的唇语同步方法[17,18] 。难以产生令人满意的结果。

摘要

在这项工作中，我们研究了对任意身份的人脸视频进行唇语同步以匹配目标语音段的问题。目前的工作擅长在静态图像或训练期间看到的特定人物的视频上产生准确的唇部动作阶段。然而，在动态的、不受约束的人脸视频中，它们不能准确地变形任意身份的嘴唇运动，导致视频的很大一部分与新音频不同步。我们确定了与此相关的关键原因，并通过学习一个强大的唇部同步判别器来解决这些问题。接下来，我们提出了新的、严格的评估基准和指标，以准确地测量不紧张的视频中的唇部同步性。对我们具有挑战性的基准进行的广泛的定量评估表明，由我们的Wav2Lip模型生成的视频的唇部同步精度几乎与真实的同步视频一样好。我们在网站上提供了一个演示视频，清楚地显示了我们的Wav2Lip模型和评估基准的实质性影响cvit.iiit.ac.in/research/projects/cvit-projects/a-lip-sync-expert- is-all-you-need-for-speech-to-lip-generation-in the-wild。代码和模型在这里发布：github.com/Rudrabha/Wav2Lip。你也可以在这个链接中尝试互动演示：bhaasha.iiit.ac.in/ lipsync。

CCS的概念

计算方法计算机视觉；从评论中学习；语音/形态学。

关键字

lip sync;video generation;talking face generation

1 引言

随着视听内容消费的指数级上升[21]，快速的视频内容创作已经成为一种典型的需求。同时，让这些视频以不同的语言被访问也是一个关键的挑战。例如，深度学习系列讲座、著名电影或对国家的公开讲话，如果被翻译成所需的目标语言，就可以被数百万新的观众所接受。翻译这类人脸视频或创建新的视频的一个关键方面是纠正唇部同步以匹配所需的目标语音。因此，为匹配给定的输入音频流而进行唇语同步的人脸视频在研究界受到了相当大的关注[6,13,17,18,23] 。最初的工作[19,22]在这个空间中使用深度学习，利用单个说话人的七个小时学习了从语音表征到嘴唇标志的映射。最近的作品[13,23]在这一路线上直接从语音表征生成图像，并显示了他们所训练的特定发言人的卓越的生成质量。然而，众多的实际应用需要能够随时用于一般身份和语音输入的模型。这导致了独立于说话人的语音到嘴唇生成模型的产生[17,18]，这些模型是在成千上万的身份和声音上训练出来的。它们可以在任何身份的任何声音的单一静态图像上产生准确的唇部运动，包括由文本到语音系统生成的合成语音[18]。然而，为了用于翻译讲座/电视系列节目等应用，这些模型需要能够对这些动态的、无约束的视频中存在的广泛的唇形进行变形。
而不仅仅是在静态图像上。
我们的工作建立在这后一类独立于说话人的工作之上，这些工作希望为任何身份和声音的人脸视频进行唇语同步。我们发现，这些对静态图像效果很好的模型无法准确地对无约束的视频内容中的各种唇形进行变形，导致生成的视频中有很大一部分与新目标音频不同步。观看者可以识别一个不同步的视频片段，小到只有
0。05 0.1秒[9] 的时间。因此，令人信服地将真实世界的视频与全新的语音对接是相当具有挑战性的。
考虑到允许误差的微小程度。此外，我们的目标是一个独立于说话人的方法，没有任何额外的特定说话人的数据开销，这使得我们的任务更加复杂。
困难。真实世界的视频包含快速的姿势、比例和光照变化，生成的人脸结果也必须无缝地融合到原始目标视频中。
我们首先检查了现有的与说话人无关的语音到嘴唇的生成方法。我们发现，这些模型没有充分惩罚错误的唇形，这可能是由于只使用了重建损失或弱的唇同步判别器。我们调整了一个强大的唇部同步判别器，它可以强制发生器持续产生准确、真实的唇部运动。接下来，我们重新审视了目前的评估协议，并设计了新的、严格的评估基准，这些基准来自三个标准测试集。我们还提出了可靠的评价指标，使用Sync- Net [9]来精确评价无约束视频中的唇语同步。我们还收集并发布了ReSyncED，这是一组具有挑战性的真实世界的视频，可以为模型在实践中的表现提供基准。我们进行了广泛的定量和主观的人类评估，并在所有的基准中以很大的优势超过了以前的方法。我们的主要贡献/主张如下。
我们提出了一个新的唇语同步网络，Wav2Lip，它比以前的作品在野外用任意的语音对任意的人脸视频进行唇语同步时要准确得多。
我们提出了一个新的评估框架，由新的基准和指标组成，以实现对无约束视频中的唇语同步的公平判断。
我们收集并发布了ReSyncED，这是一个真实世界的唇语同步评估数据集，用来衡量唇语同步模型在完全未见过的野外视频中的表现。Wav2Lip是第一个独立于说话人的模型，它生成的视频具有与真实同步视频相匹配的唇部同步精度。人类的评估表明，Wav2Lip生成的视频在90%以上的时间里比现有的方法和未同步的版本更受欢迎。
在我们的网站上可以找到一个演示视频1，其中有几个定性的例子，清楚地说明了我们模型的影响。我们还将在网站上发布一个互动演示，允许用户使用他们选择的音频和视频样本来尝试这个模型。本文的其余部分组织如下。第2节调查了语音转唇生成领域的最新发展，第3节讨论了现有工作的问题，并描述了我们提出的缓解这些问题的方法，第4节提出了一个新的、可靠的评估框架。我们在第5节中描述了各种潜在的应用，并解决了一些伦理问题，在第6节中得出结论。

2 相关的工作

2.1从语音中生成受限的说话人脸

我们首先回顾一下关于说话脸部生成的工作，这些工作要么受制于他们可以生成的身份范围，要么受制于他们的词汇范围。最近的一些作品[19,22]在巴拉克-奥巴马的视频中实现了真实的人脸生成。他们学习了输入音频之间的映射和相应的唇部地标。由于它们只对特定的说话人进行了训练，因此它们不能对新的身份或声音进行合成。它们还需要大量的特定演讲者的数据，通常是几个小时。最近沿着这个思路的一项工作[13]提出通过添加或重新移动讲话中的短语来无缝编辑单个讲话者的视频。他们仍然需要每个演讲者一个小时的数据来实现这一任务。最近，另一项工作[23]试图通过使用一个两阶段的方法来减少这种数据开销，他们首先学习与说话人无关的特征，然后学习
用5分钟的所需说话人的数据进行渲染映射。然而，他们在训练独立于说话人的网络时，是在一个标准的
然而，他们在一个明显较小的语料库上训练独立于说话人的网络，而且还有一个额外的开销，即需要每个目标说话人的干净训练数据来为该说话人生成。现有工作的另一个限制是在词汇方面。一些作品[5,26,28] 在具有有限词汇集的数据集上进行训练，如GRID [10] (56个词汇)。 TIMIT [14] 和LRW [8] (1000个单词)，这极大地阻碍了模型学习真实视频中大量的音素-词汇映射[18] 。我们的工作重点是对无约束的人脸视频进行唇语匹配，以匹配任何目标语音，不受身份、声音或词汇的限制。

2.2从语音中生成无约束的说话人脸

尽管在语音驱动的人脸生成方面的工作越来越多，但令人惊讶的是，很少有工作被设计为与任意身份、声音和语言的视频对口。它们没有在一小部分身份或一小部分词汇上进行训练。这使得它们在测试时可以对任何语音的随机身份进行唇语同步。据我们所知，在目前的文献中，只有两个这样突出的作品[17,18] 。请注意，[17] 是[7] 的扩展版本。这两项工作[17,18]都将学习在野外进行唇语的任务表述如下。给定一个简短的语音片段S和一个随机的参考人脸图像R，网络的任务是生成一个与音频相匹配的输入人脸的唇语版本Lд。此外，LipGAN模型还输入了下半身被遮住的目标脸，作为姿势先验。这一点至关重要，因为它允许将生成的人脸作物无缝粘贴到原始视频中，无需进一步的后期处理。它还与生成器一起训练了一个判别器，以判别同步或不同步的音频视频对。然而，这两项工作都有一个重要的局限性：它们在任意身份的静态图像上工作得非常好，但在试图对野外无约束的视频进行唇语生成时，却产生了不准确的唇语。与LipGAN[18]中使用的GAN设置不同，我们使用了一个预先训练好的、准确的唇语辨别器，而不是与生成器一起进一步训练。我们观察到这是一个重要的设计选择，以达到更好的唇语效果。

3 准确的语音驱动的野外视频对口型的处理

我们的核心架构可以总结为"通过向训练有素的唇语专家学习，生成准确的唇语"。为了理解这一设计选择，我们首先确定了现有架构（第2.2节）在野外的视频中产生不准确的唇音的两个关键原因。。我们认为，损失函数，即在现有的工作中使用的L1重建损失[17,18] 和LipGAN中的判别器损失[18] 都不足以惩罚不准确的唇语同步生成。

3.1像素级重建损失是判断唇语同步的一个弱点

脸部重建损失是针对整个图像计算的，以确保正确的姿势生成，保留身份，甚至脸部周围的背景。嘴唇区域相当于总重建损失的4%以下（基于空间范围），因此在网络开始执行细粒度的唇形校正之前，大量的周围图像重建首先被优化。这一点从网络开始变形的事实中得到了进一步的支持
嘴唇在其训练过程（11thepoch）的一半左右才开始变形（20epochs [18] ）。因此，关键是要有一个额外的判别器来判断唇语，这也是LipGAN的做法[18]。但是。
LipGAN中采用的鉴别器有多强大？

3.2弱的唇部同步辨别器

我们发现，LipGAN的唇部同步鉴别器在LRS2测试集上检测不同步的音频-唇部对时，准确率只有56%左右。作为比较，我们将在这项工作中使用的专家判别器在同一测试集上的准确率为91%。我们假设这种差异有两个主要原因。首先，LipGAN的判别器使用单帧来检查唇语同步。在表3、中，我们表明，在检测唇语同步时，小的时间背景非常有帮助。其次，在训练过程中生成的图像由于尺度和姿势的巨大变化而含有大量的假象。我们认为，像LipGAN那样，在GAN设置中对这些嘈杂的生成图像进行训练，会导致鉴别器专注于视觉伪影而不是音频-嘴唇的对应关系。这导致了非同步检测精度的大幅下降（表3）。.我们认为并表明，从实际视频帧中捕捉到的 “真实”、准确的唇音概念可以用来准确地分辨和执行生成的图像中的唇音。

3.3你只需要一个唇语专家就够了

基于以上两个发现，我们建议使用一个预先训练好的专家级唇语辨别器，它能准确地检测出真实视频中的同步情况。此外，它不应该像LipGAN那样对生成的帧进行进一步的微调。一个这样的网络已经被用来纠正唇部同步错误，以创建大型唇部同步数据集[1,3] 是SyncNet [9] 模型。我们建议为我们的任务调整和训练SyncNet[9]的修改版本。

3.3.1SyncNet的概述。

SyncNet [9] 输入一个由Tv连续人脸帧（仅下半部分）和一个大小为Ta D的语音段S的窗口V。其中Tv和Ta分别为视频和音频的时间步骤。。训练它通过随机取样一个音频窗口Ta D来辨别音频和视频之间的同步性，该窗口要么与视频对齐（同步），要么来自不同的时间步长（不同步）。］它包含一个人脸编码器和一个音频编码器，两者都是由一叠二维旋转组成的。从这些编码器生成的嵌入之间计算出L2距离，并使用最大边际损失训练模型，以最小化（或最大化）同步（或不同步）对之间的距离。
在这里插入图片描述图2: 我们的方法通过向 "已经训练有素的唇语专家 "学习，产生准确的唇语。与以往只采用重建损失[17]或在GAN设置中训练判别器[18]的工作不同，我们使用一个预先训练好的判别器，它在检测唇同步错误方面已经相当准确。我们表明，在嘈杂的生成面孔上进一步调整它，会妨碍判别器测量唇部同步的能力，从而也会影响生成的唇形。此外，我们还采用了一个视觉质量鉴别器来提高视觉质量和同步的准确性。

3.3.2我们的专家唇部同步判别器

我们对SyncNet做了以下修改 [9] 以训练一个适合我们唇部生成任务的专家级唇部同步判别器。］首先，我们没有像原始模型那样提供灰度图像，而是提供彩色图像。其次，我们的模型明显更深，有剩余的跳过连接[15]。。第三，受这个公共实现的启发2，我们使用一个不同的损失函数：余弦相似性与二进制交叉熵损失。。也就是说，我们计算ReLU激活的视频和语音嵌入v,s之间的点积，以产生一个介于0,1之间的单个值，用于表示输入音频-视频对同步的概率。
在这里插入图片描述
我们在LRS2训练中训练我们的专家级唇语辨别器分割（29小时），批次大小为64，Tv=5帧，使用ADAM优化器[12] ，初始学习率为1e-3。我们的专家的唇语鉴别器在LRS2测试集上的准确率约为91%。而LipGAN中使用的判别器在同一测试集上的准确率只有56%。

3.4 通过向唇语专家学习来生成准确的唇语

现在我们有了一个准确的唇音识别器，我们现在可以用它来惩罚发生器（图2）在训练期间不准确的生成。我们首先描述一下发生器的结构。

3.4.1生成器结构细节。

我们使用了与LipGAN类似的生成器架构[18]。我们的关键贡献在于用专家判别器来训练它。生成器G包括三个模块。(i) 身份编码器，(ii) 语音编码器，和(iii) 面部解码器。身份编码器是一堆残余卷积层，对随机参考帧R进行编码，并与沿通道轴的姿势先验P（下半身被遮住的目标脸）相联系。语音编码器也是一个二维卷积，对输入的语音段S进行编码，然后与人脸表示相连接。解码器也是一个卷积层的堆叠，同时还有用于上采样的转置卷积。生成器被训练成最小的L1重构
在这里插入图片描述
因此，生成器与之前的作品类似，是一个二维CNN编码器-解码器网络，独立生成每一帧。那么，我们如何使用我们预先训练好的专家唇语判别器，它需要一个Tv=5帧的时间窗口作为输入？

3.4.2 惩罚不准确的嘴唇生成

在训练过程中，由于在第3.3节中训练的专家鉴别器每次处理Tv=5个连续帧，我们还需要发生器G来生成所有Tv=5帧。我们为参考帧随机抽取一个连续的窗口，以确保尽可能多的时间性
姿势等在Tv窗口中的一致性。批量维度堆叠，同时送入参考帧，以获得N Tv,H,W,3，其中N, H, W分别为批量大小、高度和宽度。当把生成的帧送入专家判别器时，时间步数沿着通道维度串联起来，就像在训练 "专家判别器 "时做的那样。
鉴别器的训练过程。专家判别器的输入形状是N,H2,W,3Tv，其中只有生成脸的下一半被用于识别。生成器也被训练成最小的 "专家同步损失"E同步来自专家判别器。
在这里插入图片描述
其中Esiync根据公式1计算。］请注意，专家判别器的权重在发生器的训练过程中保持冻结。
生成器的训练中保持冻结。这种纯粹基于从真实视频中学到的唇部同步概念的强大辨别力迫使生成器也实现真实的唇部同步，以最小化唇部同步损失Esync。

3.5 生成照片般逼真的面孔

在我们的实验中，我们观察到，使用一个强大的唇部同步破坏器迫使生成器产生准确的唇形。然而，它有时会导致变形的区域略微模糊或包含轻微的人工痕迹。为了减轻这种轻微的质量损失，我们在GAN设置中与生成器一起训练一个简单的视觉质量判别器。因此，我们有两个判别器，一个用于同步准确性，另一个用于更好的视觉质量。由于3.2中解释的原因，唇语同步判别器是而不是在GAN设置中训练的。。另一方面，由于视觉质量判别器不对唇语进行任何检查，只对不真实的脸部生成进行惩罚，所以它是在生成的脸部上训练的。
鉴别器D由一个卷积块堆叠而成。每个块由一个卷积层和一个Leaky ReLU激活层组成[20]。鉴别器被训练为最大化目标函数Ldisc（公式5）。
在这里插入图片描述
其中LG对应于来自生成器G的图像，以及LG对应于真实图像。生成器最小化方程6，是重建损失（方程2）、同步损失（方程3）和对抗性损失Lgen（方程4）的加权和。

其中sw是同步惩罚权重，sg是临界点。目前的框架不能支持一个新的元的损失，根据经验，这些损失被设置为0。03和0。07在我们所有的实验中。因此，我们的完整网络在以下两个方面进行了优化因此，我们的完整网络在使用两个互不相干的判别器来优化同步精度和质量。我们只在LRS2训练集[1]上训练我们的模型，批次大小为80。我们使用亚当优化器[12]，其初始学习率为1e-4和betasβ1=0。5,β2=0。999对于生成器和视觉质量鉴别器D。需要注意的是，唇部同步判别器并不是微调的。note没有进一步微调，所以它的权重是冻结的。我们通过解释来总结我们提出的架构的描述在真实视频的推理过程中如何工作。与Lip- GAN[18]类似，该模型逐帧生成一个说话的脸部视频。每个时间步的视觉输入是当前的人脸裁剪（来自源帧），并与相同的当前人脸裁剪相连接，其下半部分被屏蔽，作为姿势先验。因此，在推理过程中，模型不需要改变姿势，大大减少了伪影。相应的音频片段也被作为语音子网络的输入，该网络生成输入的脸部裁剪，但嘴部区域被变形。我们所有的代码和模型都将公开发布。我们现在将对照以前的模型，定量地评估我们的新方法。

4定量评价

尽管只在LRS2训练集上训练，我们还是在3个不同的数据集上评估了我们的模型。但在这之前，我们重新调查了之前工作中遵循的现行评估框架，以及为什么它远不是评估这一领域工作的理想方式。

4.1重新思考自然场景下的语音驱动对口型的评估框架

目前独立于说话人的唇语同步的评估框架对模型的判断与对真实视频进行唇语同步的方式不同。具体来说，不是将当前帧作为参考（如上一节所述），而是选择视频中的一个主帧作为参考，以便在评估期间不泄露正确的唇语信息。我们强烈认为，前一段的评估框架对于评估唇语同步的质量和准确性并不理想。经过对上述评估系统的仔细研究，我们观察到一些关键的局限性，我们在下面讨论

4.1.1不能反映真实世界的使用情况

如前所述，在测试时的生成过程中，模型不能改变姿势，因为生成的脸需要无缝粘贴到画面中。然而，目前的评估框架在输入中提供了随机参考框架，因此要求网络改变姿势。因此，上述系统并不评价模型在现实世界中的使用情况。

4.1.2不一致的评价

4.1.2由于参考框架是随机选择的，这意味着不同作品的测试数据是不一致的。这将导致不公平的比较，阻碍结果的可重复性。

4.1.3不支持检查时间上的一致性

4.1.3由于参考框架是在每个时间步长中随机选择的，所以时间性的一致性已经丧失，因为帧是以随机的姿势和比例生成的。目前的框架不能支持一个新的度量或未来的方法，旨在研究这个问题的时间一致性方面。

4.14目前的衡量标准并不是专门针对唇语的

现有的方法，如SSIM[27]和PSNR，是为了评估所有的图像质量，而不是细微的唇语错误。］虽然LMD [4] 专注于唇部区域，但我们发现在生成的人脸上，唇部地标可能是相当不准确的。因此，需要一个专门为测量唇部同步误差而设计的指标。

在这里插入图片描述表1: 我们提出了两个新的指标 “Lip-Sync Error-Distance”（越低越好）和 “Lip-Sync Error-Conftdence”（越高越好），它们可以可靠地衡量无约束视频的唇部同步准确性。我们看到，使用Wav2Lip生成的视频的唇部同步准确性几乎与真实的同步视频一样好。请注意，我们只在LRS2[1]、的训练集上进行了训练，但我们很舒服地在所有数据集上进行了泛化，不需要再进行任何ftne-tuning。我们还报告了FID得分（越低越好），这清楚地表明，使用视觉质量鉴别器可以提高质量，而且幅度相当大。

4.2评价自然场景下的唇语同步的新基准和衡量标准

对随机帧进行评估的原因是，当前帧已经与语音同步，导致输入本身的唇形泄漏。以前的工作没有尝试对不同的语音片段进行采样，而不是对不同的帧进行采样，因为采样的语音的真实唇形是不可用的。

4.2.1衡量唇部同步误差的指标。

我们建议使用预先训练好的SyncNet [9] 可公开获得的3来测量生成的帧和随机选择的语音段之间的唇形同步误差。］SyncNet在一个视频片段上的平均精确度超过99% [9] 。。因此，我们相信这可以成为一个很好的自动评估方法，明确地测试野外无约束视频中的准确唇语同步。请注意，这不是我们上面训练的专家唇语鉴别器，而是Chung和Zisserman发布的[9]，它是在不同的、非公开的数据集上训练的。。使用同步网络解决了现有评估框架的主要问题。我们不再需要对随机的、时间上不连贯的帧进行采样，而且SyncNet在评估唇语同步时也考虑到了短距离的时间一致性。因此，我们提出了两个使用SyncNet模型自动确定的新指标。第一个是以唇部和音频表示之间的距离计算的平均误差指标，我们将其命名为 “LSE-D”（“唇部同步误差-距离”）。较低的LSE-D表示较高的视听匹配度，即语音和嘴唇运动是同步的。第二个指标是平均信心得分，我们将其命名为 “LSE-C”（唇部同步误差

信度）。信度越高，音频-视频的相关性就越好。相关性。一个较低的置信度分数表示视频中有几个部分的唇部动作完全不同步。进一步的细节可以在SyncNet的论文中找到[9]。

4.2.2一个一致的基准来评估野外的唇语同步

现在我们有了一个可以对任何视频和音频对进行计算的自动的、可靠的指标，我们可以在每个时间步长中对随机语音样本而不是随机帧进行采样。因此，我们可以创建一个视频和伪随机选择的音频对的列表作为一个一致的测试集。我们创建了三个一致的基准测试集，分别使用LRS2 [1] 、LRW [8] 和 LRS3 [3] 的测试集视频。对于每个视频Vs，我们从另一个随机采样的视频Vt中提取音频，条件是的长度，语音Vt小于Vs。我们使用LRS2创建14K音视频对。使用LRW测试集，我们创建了28K对，这组测试集衡量了正面/近面视频的性能[2]。我们还使用LRS3测试集创建了14K对，这也将成为剖面图中对口型的基准。这套完整的这套评估工具将被公开发布，以便在野外对对口型视频进行一致和可靠的基准测试。

4.3在新基准上比较各种模型

我们使用LSE-D和LSE-C指标在我们新创建的测试集上比较前两种方法[17,18] 。在内联过程中，我们现在在每个时间步骤中提供相同的参考和姿势优先，这与之前在结构部分的描述相似。表1显示了所有三个测试分割中的音频-视频对的平均LSE-D和LSE-C得分情况。此外，为了衡量生成的人脸的质量，我们还报告了Fréľchet Inception Distance（FID）。我们的方法在很大程度上超过了以前的方法，这表明了强大的唇语识别能力的重要作用。我们还可以看到，在使用视觉质量鉴别器和唇音专家鉴别器之后，质量有了明显的改善。然而，我们观察到在使用视觉质量判别器后，同步的准确性略有下降。因此，我们将发布这两个模型，因为它们在视觉质量和同步准确性之间有一个轻微的权衡。

4.4真实世界的评估

除了在标准数据集上进行评估外，我们新的评估框架和指标允许我们在真实世界的视频上进行评估，这些模型最有可能被使用。此外，考虑到人类对音唇同步的敏感性[9]，有必要在人类评价者的帮助下评估我们的结果。因此，与之前的独立于说话者的唇语工作相反，我们首次对网络上无约束的真实视频进行了定量和人工评估实验。因此，我们收集并公开发布了 "ReSyncED "这一 “真实世界评估数据集”，以主观和客观地衡量对口型作品的性能。

4.4.1策划ReSyncED

我们所有的视频都是从YouTube下载的。我们特别选择了三种类型的视频例子。第一种类型是 “配音”，包含音频自然不同步的视频，如配音的电影片段或被现场翻译成不同语言的公共讲话（因此讲话者的嘴唇是不同步的）。
在这里插入图片描述
表2: 使用我们新收集的ReSyncED基准进行的真实世界评估。我们使用定量指标和人类评价分数对三类真实视频进行评估。我们可以看到，在所有情况下，Wav2Lip模型都能产生高质量、准确的对口型视频。具体来说，这些指标表明我们的唇语视频和真实的同步视频一样好。我们还注意到，人类的评价表明，在试图对TTS生成的语音进行唇语同步时，还有改进的余地。最后，值得注意的是，在90%以上的时间里，我们的唇语视频比现有的方法或实际未同步的视频更受欢迎。
这类视频与翻译后的语音不同步。第二种类型是 “随机”，我们有一个视频集合，并创建类似于第三种也是最后一种类型的视频，即 “TTS”，是专门为测试从文本到语音系统获得的合成语音的唇语性能而选择的。这对于未来有志于自动翻译视频（面对面翻译[18]）或快速创建新的视频内容的工作是至关重要的。我们手动抄写文本，使用谷歌翻译（大约有5种语言）和公开可用的文本到语音模型来生成合成翻译的在这个类别的视频中的语音。任务是纠正原始视频中的唇部动作，以匹配这个合成语音。

4.4.2ReSyncED的真实世界评估

我们首先使用我们新的自动指标 "LSE- D "和 "LSE-C "来评估生成的真实视频结果，这些指标是从SyncNet获得的[9]。.对于人类评估，我们要求14评估员根据以下参数来判断不同的同步版本的视频。(a) 同步精度 (b)视觉质量（评价视觉伪影的程度），（c）整体体验（评价视听内容的整体体验），以及（d）偏好，即观众选择最吸引人的视频版本观看。前三个参数-
等项的得分在1 5之间，(d)是单项选择投票，我们报告一个模型获得的投票百分比。我们
我们分别评估三类视频中的每一类，并在表2中报告我们的结果。2.一个值得注意的结果是，以前的作品[17,18]产生了几个不同步的片段，比起不同步的版本来说，不那么受欢迎，因为后者仍然保留着良好的视觉质量。因此，我们的工作是第一个在野外对未同步的人脸视频进行了重大改进。我们还在图3中展示了一些定性的比较，其中包含了一些从ReSyncED测试集中生成的样本。

4.5 我们的专家判别器在其他选择中是否最好？

在这里插入图片描述表3: 更大的时间窗口可以更好地分辨唇语。另一方面，在生成的面孔上训练唇部同步判别器会使其检测不同步的音频-嘴唇对的能力下降。因此，使用这样的鉴别器来训练唇语生成器会导致唇语不同步的视频。

我们的专家鉴别器使用Tv=5个视频帧来测量唇部同步误差。在GAN设置中，它也没有对生成的面孔进行微调。我们在这个消融研究中证明了这两个设计选择的合理性。
研究。我们可以通过从LRS2测试集中随机抽取同步和非同步对来测试判别器的性能。我们改变Tv=1,3,5的大小来了解其对检测同步的影响。我们还对Tv的三个变体进行微调/冻结，同时训练Wav2Lip模型。因此，我们在表3中总共得到了6的变化。从中我们可以清楚地观察到两点。增加时间窗口大小Tv始终提供更好的唇语识别性能。更重要的是，我们看到，如果我们对生成的含有假象的脸部进行微调，那么鉴别器就会失去检测不同步的视听对的能力。我们认为，这种情况的发生是因为微调后的鉴别器专注于生成的视觉假象。
在这里插入图片描述图3: 由我们提出的模型生成的人脸的例子（绿色和黄色的轮廓）。我们与目前最好的方法[18]（红色轮廓）进行比较。图中的文字是为了说明问题，以表示在图中的框架中正在说的话语。我们可以看到，我们的模型产生了准确、自然的唇形。增加一个视觉质量鉴别器也大大改善了视觉质量。我们强烈鼓励读者查看我们网站上的演示视频。

我们强烈建议读者查看我们的网站上的演示视频，因为它是以人脸为鉴别标准的，而不是以精细的音频-嘴唇反应为标准的。因此，它将真正的未同步的配对归类为 “同步”，因为这些真正的人脸图像不包含任何伪影。从长远来看，使用这样一个弱的判别器会导致我们的生成器的唇语同步惩罚效果不佳，从而导致唇语同步的人脸视频效果不佳。

5应用和公平使用

在我们的内容消费和社会交流变得越来越视听化的时候，我们迫切需要大规模的视频翻译和创作。Wav2Lip可以在满足这些需求方面发挥重要作用，因为它对野外的视频是准确的。例如，通常是英语的在线讲座视频现在可以与其他当地语言的（自动）配音语音进行唇语同步（表2，最后一块）。我们还可以为配音的电影配上口型，使其成为令人愉快的观看方式（表2，第一块）。在全球范围内，每天都有新闻发布会和公共演讲被现场翻译，但演讲者的嘴唇与翻译后的讲话不同步。我们的模型可以无缝地纠正这一点。在制作动画电影和丰富的对话式游戏内容时，将CGI角色的嘴唇与配音演员的讲话自动制成动画，可以节省几个小时的手工劳动。我们在网站上的演示视频中展示了我们在所有这些应用上的模型，以及更多的应用。
我们认为，讨论和促进公平使用能力越来越强的对口型作品也是至关重要的。唇语的广泛适用性我们的模型具有近乎真实的唇语能力，适用于任何身份和声音，这引起了人们对滥用的可能性的关注。因此，我们强烈建议，任何使用我们的代码和模型创造的结果都必须毫不含糊地表明自己是合成的。除了上述强烈的积极影响外，我们将我们的工作完全开源的意图是，它也可以同时鼓励在检测被操纵的视频内容及其滥用方面的努力[11,16,24,25] 。我们相信，Wav2Lip可以实现七种积极的应用，也可以鼓励有关公平使用合成内容的富有成效的讨论和研究工作。

6结论

在这项工作中，我们提出了一种新的方法来在野外生成准确的唇语同步视频。我们强调了目前的方法在对不紧张的人脸视频进行唇语同步时不准确的两个主要原因。在此基础上，我们认为预先训练好的、准确的唇部同步 "专家 "可以强制执行准确、自然的唇部动作生成。在评估我们的模型之前，我们重新审视了当前的定量评估框架，并强调了几个主要问题。为了解决这些问题，我们提出了几个新的评价基准和指标，还提出了一个真实世界的评价集。我们相信未来的工作可以在这个新框架中得到可靠的评判。我们的Wav2Lip模型在定量指标和人类评价方面都比目前的方法有很大的优势。我们还在一项消融研究中调查了我们对消融器的设计选择背后的原因。我们鼓励读者观看我们网站上的演示视频。我们相信我们的努力和想法在这个问题上的努力和想法可以带来新的方向，如合成表情和头部姿势以及准确的嘴唇运动。
参考文献：。。。