TIFS' 2024
paper: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10689267
code:
Abstract
先进的Deepfake技术的出现逐渐引起了社会的关注,促使人们对Deepfake检测产生了极大的关注。然而,在现实场景中,深度伪造通常涉及多张人脸。尽管如此,大多数现有的检测方法仍然是单独检测这些人脸,忽略了它们之间的信息相关性以及图像的全局信息与人脸局部信息之间的关系。在本文中,我们通过提出FILTER来解决这一限制,FILTER是一种用于多面伪造检测的新框架,可以显式捕获潜在的相关性。FILTER主要包括两个模块:Multi-face Relationship Learning (MRL)和Global Feature Aggregation (GFA)。具体而言,MRL学习多人脸图像中局部人脸特征的相关性,GFA构建图像级标签与个体人脸特征之间的关系,从全局角度提高性能。特别是,对比学习损失函数被用来更好地区分真实和虚假的面孔。在两个公开的多面伪造数据集上进行了大量的实验,证明了FILTER在多面伪造检测中的最先进性能。例如,在Openforensics Test-Challenge数据集上,FILTER以更高的AUC得分(0.980)和更高的检测准确率(92.04%)优于以前最先进的方法。
索引术语-深度伪造检测,多人脸关系学习,全局特征聚合。
I. INTRODUCTION
近年来,深度伪造技术已经在创造合成多媒体内容方面取得了令人瞩目的进步,这些内容通常是人类观察者和面部识别系统[1],[2],[3],[4]无法识别的。然而,这些技术也可能被恶意滥用,导致假新闻[5]、[6]或社交媒体欺诈的产生。深度伪造的广泛使用对社会领域、执法部门甚至国家安全的公众构成了不断演变的威胁。为了应对这些威胁,学术界正在积极研究深度伪造检测技术。
随着其在复杂现实场景中的应用需求日益增长,伪造研究的重点逐渐从单人脸场景转向多人脸场景[7],[8]。在多人脸场景中,单幅图像通常包含多个主题,与现实世界场景的复杂性更紧密地结合在一起。对于防御者来说,多人脸图像中真假人脸的数量是不确定的,而且与单人脸图像相比,每张人脸通常具有较低的分辨率和不同的姿势,这给伪造伪影的检测带来了更大的挑战。
虽然人脸伪造检测的研究很多,在一些经典的深度伪造数据集[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]上取得了令人印象深刻的性能,但这些方法大多是针对单人脸伪造检测而设计的。虽然这些方法可以通过顺序检测每个人脸来应用于多人脸伪造检测,但这种直接解决方案往往无法达到最佳效果。主要原因是这些单人脸伪造检测方法只关注于确定单张人脸上是否存在伪影。然而,在单个人脸分辨率较低且面部姿势不同的复杂场景中,这些方法的表现并不好。
近年来,人们一直在尝试解决多人脸场景下人脸伪造检测的挑战。OpenForensics[8]是该领域的一个值得注意的创举,它采用传统的目标检测技术来识别和分类具有多个个体的图像中的每个人脸。然而,这些目标检测方法并不是专门为深度伪造检测设计的。因此,他们提取有限的伪造线索,导致次优分类性能。此外,像MIL[17]和FFIW[7]这样的方法也被开发出来解决多人脸场景中的伪造检测问题。这些研究一般采用多实例学习框架[18]、[19]、[20],并使用视频级标签训练模型进行视频尺度的多人脸伪造检测。然而,它们不能有效地检测图像级伪造,也没有考虑到多人脸场景中潜在的丰富的相关信息。具体来说,在真实场景中,多张脸往往在外观特征、光照条件、背景、姿势和表情等方面表现出一致性。相比之下,在伪造的场景中,由于伪造技术的限制,这种一致性可能无法完全保持,从而导致潜在的不一致性,这对于准确的伪造检测至关重要。因此,这些方法的检测性能不能满足大规模应用的要求。
为了解决上述限制,本文引入了一个名为FILTER的新框架,用于多人脸伪造检测,该框架利用了所提出的面部关系学习和特征聚合方法。如图1所示,我们方法的核心动机在于理解多人脸场景中的伪造线索不仅可以从单个人脸中识别,还可以从不同人脸之间的关系以及图像级标签与图像内单个人脸之间的全局-局部连接中识别。通常情况下,同一类别(Real vs. Real, Fake vs. Fake)的人脸之间的相似性高于不同类别(Real vs. Fake)的人脸之间的相似性。因此,我们的方法试图通过探索和加强同一类别中人脸之间的相似性来增强特征的可辨别性,同时区分不同类别的人脸。此外,作为全局信息,图像级标签可以提供影响每个人脸的更广泛的背景。通过在这些全局信息和每张脸的特征之间建立联系,我们的框架可以发现更多的伪造线索。
具体来说,我们设计了两个新的多人脸伪造检测模块。首先,我们提出了一个多人脸关系学习模块,融合图像中每个人脸的空间特征和高频特征,并在不同层次上捕捉不同人脸特征之间的潜在关系,这在以往的研究中被忽视。其次,引入全局特征聚合模块,对同一图像中的所有人脸特征进行聚合,获得图像级全局特征,并利用图像级标签对其进行监督,建立全局信息与局部人脸特征之间的联系,从全局角度约束局部特征。此外,我们引入了对比学习,通过将同一类别的特征拉得更近而将不同类别的特征推得更远来提高特征的独特性。在两个公开的多人脸伪造数据集OpenForensics[8]和FFIW10K[7]上的实验结果验证了在多人脸伪造检测场景中,与几种最先进的方法相比,我们的FILTER框架具有优越的性能。总的来说,我们的贡献可以概括为三个方面:
•我们引入了FILTER,一种为多人脸场景设计的新型伪造检测框架,利用图像中人脸之间的关系和全局-局部连接来增强伪造检测性能。
•我们提出了一个多人脸关系学习模块来融合空间和频域特征,并捕获人脸之间的潜在关系。我们提出了一个全局特征聚合模块,从全局角度对局部人脸特征进行聚合,提高伪造检测性能。此外,我们引入了对比学习来增强面部特征识别。
•我们在两个多人脸伪造数据集上展示了我们的FILTER的优异性能。与现有方法相比,FILTER显著提高了多人脸场景下的伪造检测性能,达到了最先进的水平。
II. RELATED WORK
A. Single-Face Deepfake and Detection
深度学习的显著进步导致了深度伪造技术的显著进步,特别是在伪造人脸生成方面。变分自编码器(VAEs)[21],[22]和生成对抗网络(GANs)[23],[24],[25],[26]已经成为突出的合成技术,有助于创建高质量和逼真的面部图像。目前,人脸伪造的研究大多集中在单人脸伪造上,其主要目标是实现人眼和检测器难以区分的逼真伪造效果。
深度伪造技术的快速发展,促使相关检测技术[27]、[28]、[29]、[30]的研究活跃起来。目前,很多方法都是从不同的角度对伪造检测进行研究。有些方法侧重于特定特征,如分析眨眼[13]、头部姿势[31]、嘴部运动[32]、角膜镜面高光一致性[33]。其他方法主要集中在频域[34],[35],捕捉GANs引入的伪影在频谱和频域的真假人脸特征差异。当然,直接使用先进的卷积神经网络来捕捉伪造线索也是一种非常有效的方法[14],[36],[37]。与上述方法相比,SBI[38]方法将单个原始图像中的伪源图像和目标图像混合,生成自混合图像,鼓励分类器学习更通用和鲁棒的表示,以识别更具挑战性的伪造样本。M2TR[39]采用由多尺度transformer和频率滤波器组成的双流架构,在空域和频域捕获伪造模式。采用跨模态融合块来合并互补的伪造特征以进行检测。最近的定位验证[40]方法提出了一种具有多尺度特征处理模块的双流网络和一种用于伪造注释的半监督学习策略。旨在通过扩大潜在区域、处理多流特征和估计补丁级伪造位置来改进深度伪造检测。M2TR和定位验证在最近的出版物[41]中被证明是最先进的单人脸伪造检测方法。
B. Multi-Face Deepfake and Detection
最近,人们对伪造多张人脸越来越感兴趣,这更适用于现实世界的场景。多人脸伪造是指对包含多个人脸的图像或视频中的部分或全部人脸进行篡改,这给伪造检测带来了更大的挑战。现有的多人脸伪造研究包括OpenForensics[8],它收集多张人脸的原始图像,提取每个人脸身份的潜在向量,用随机值迭代修改潜在向量,并将其输入GAN模型以生成新人脸。然后提取可行的操作区域并与原始人脸混合形成新的身份,直到可以欺骗一个简单的分类器。另一项针对多人脸伪造的研究是FFIW[7],该研究开发了一个领域对抗质量评估网络(Domain-Adversarial Quality Assessment Network, Q-Net),用于评估各种生成模型(如StyleGAN[26]、StyleGAN2[42]和PGGAN[43])在不同迭代阶段生成的人脸质量。将迭代阶段作为伪标签来训练质量评价模型。最后,将Q-Net与现有的三种人脸交换方法(DeepFaceLab[44]、FS-GAN[45]和FaceSwap[4])集成,自动构建FFIW10K多人脸伪造数据集,保证伪造人脸的质量。这些技术为合成大量高质量的多人脸伪造图像提供了低成本、高效率的方法,从而对深度伪造检测领域提出了新的挑战。
虽然这些单人脸方法可以直接应用于多人脸伪造检测任务,通过使用人脸检测器,然后对每个人脸进行伪造检测,但在这种更具挑战性的场景中,它们的性能并不令人满意。为了应对这一挑战,一些方法已经在多人脸场景下积极探索伪造检测。例如,S-MIL[17]提出了一种尖锐的多实例学习策略,直接将实例嵌入映射到包预测,并设计时空编码实例来模拟帧内和帧之间的不一致性,从而提高检测性能。在FFIW[7]中,作者设计了一种多人脸检测方法,该方法也关注多人脸视频的伪造检测。它总结视频中每个人的面部轨迹的短期、长期和全局特征,以获得鲁棒性和判别性表征,自适应地将其聚合为视频级表征,并使用视频级标签对其进行训练。
然而,这些多人脸伪造的检测方法本质上是独立地提取每张人脸的特征,而不能利用多人脸场景中存在的关系来辅助检测。而且,这些方法主要针对视频级伪造检测,缺乏针对帧级伪造的专用检测方法。我们提出的方法试图解决这些问题,并显著提高检测性能。请注意,最近的几项研究提出了对多人脸伪造检测的增强。然而,他们的研究主要集中在伪造的定位,这与我们问题的主要焦点不一致。
III. METHODOLOGY
本文旨在开发一种有效的伪造检测框架,能够准确识别真实世界多人脸场景中所有被伪造的人脸。一种简单的方法是单独检测多人脸图像中的每个人脸,并直接应用现有的单人脸检测技术。然而,这种策略在这些场景下可能并不有效,因为它没有考虑到多人脸图像中隐藏的人脸之间的相关信息和图像固有的全局-局部连接。为了解决这一研究空白,我们提出了一种面部关系学习和特征聚合方法,称为FILTER,这是一种新的多人脸伪造检测框架,试图学习以前在图像中忽略的其他伪造线索。
在本节中,我们首先在第III-A节中说明提出的FILTER的总体架构。然后,我们介绍了第III-B节中的预处理模块、第III-C节中的多人脸关系学习(MRL)模块、第III-D节中的全局特征聚合(GFA)模块和第III-E节中的损失函数。
A. Overall Architecture
如图2所示,我们的FILTER框架主要由三部分组成:i)预处理模块,ii)多人脸关系学习(MRL)模块,以及iii)全局特征聚合(GFA)模块。
我们首先将多幅图像输入到预处理模块中,检测图像中所有的N个人脸。然后对检测到的人脸进行随机洗牌,并记录其图像索引,以便在后续的GFA模块中从同一图像中聚合面部特征。接下来,所有的人脸被送入多个连续的MRL模块中进行特征提取和人脸之间关系的多层次学习。在每个MRL模块中,频率-空间融合(FSF)子模块将每个人脸的高频信息与空域信息聚合,以学习人脸的基本特征。随后,通过形成多个自相似矩阵来学习人脸特征之间的相关信息。然后将N个面部特征输入到GFA模块中,在GFA模块中,来自同一图像的所有面部特征被聚合成一个全局特征。该全局特征与局部特征建立联系,并对其进行分类,得到全局损失Lglobal。对于MRL模块处理的这N个人脸特征,我们还设计了对比学习来增强不同人脸类别之间的特征可分辨性,导致对比学习损失Lpush_pull。此外,使用线性分类器来预测这N个面部特征,从而产生局部分类损失Llocal。最后,我们得到这三种loss用于训练模型:Llocal,Lglobal,Lpush_pull。
B. Preprocessing
第一步是使用人脸检测器检测一批图像中的所有N张人脸。我们假设每个图像X包含T个人脸,即X = {x1, x2,…, xT}。,其中图像中的第i个人脸表示为xi,其对应的标签为yi (real/fake)。此外,如果在多人脸图像中至少有一个伪造的人脸,则该图像被标记为假的。因此,每个人脸的图像级标签y与人脸级标签yi之间的关系可以表示为:
这里我们设置yi = 0代表一张真实的脸,yi = 1代表一张假脸。然后,将从各种图像中检测到的所有人脸进行洗牌,然后输入到后续模块中。该方法旨在促进使用来自相同或不同图像的人脸的鲁棒多人脸关系的学习。
C. Multi-Face Relationship Learning (MRL)
人脸之间的各种相互关联信息有望提高多人脸场景下伪造检测的准确性。因此,我们设计了一个多人脸关系学习(MRL)模块,该模块由两部分组成:频率-空间融合子模块,用于整合每个输入人脸的高频和空间特征;关系学习子模块,用于探索和学习这些特征之间的联系。
1) Frequency-Spatial Fusion (FSF): 现有研究[47],[48],[49]表明频率信息对于深度伪造检测是有效的,因为它提供了图像中更好的纹理和结构信息。受此启发,我们设计了频率-空间融合(Frequency-Spatial Fusion, FSF)模块,提取人脸的高频特征和空间特征并融合,生成更全面的特征表示。具体而言,如图3所示,所有输入人脸首先经过多次卷积层以获得其对应的空间特征Fs。然后,使用快速傅里叶变换(FFT)将特征变换到频域。由于已有研究表明伪造人脸与真实人脸在低频部分的差异极小,因此我们通过覆盖频谱的中心区域直接去除低频信息。随后,我们设计了一个可学习滤波器D来自适应增强特定的频率信息。D是与每个人脸的频域特征大小相同的权值矩阵。最后,我们进行快速傅里叶反变换(iFFT),将频域特征变换回空域,并与初始空间特征Fs融合,得到Ff:
式中,Ff∈R N×H×W×C,⊙为Hadamard积。
2) Relationship Learning: 在获得N个人脸的融合特征Ff后,我们的目标是探索这些特征之间的相关性。具体来说,我们利用余弦相似度对N个面部特征之间计算相似信息,得到自相似矩阵S:
然后,我们使用1 × 1卷积将自相似矩阵S增加到M,得到矩阵集S∈R M×N×N。这使我们能够在不同层次上捕捉到面部特征之间更丰富、更复杂的关系。同时,我们将Ff嵌入相应数量的权重矩阵,并将它们连接起来,得到Fff:
最后,将Fff与矩阵集S相乘,将得到的特征重构为原始空间分辨率,与Ff一起输入到2D残差块中,得到新的特征FR:
这样的操作保证了N个人脸的特征之间包含着相互关联的信息,有可能增强同一类别内特征之间的相似度,同时降低不同类别特征之间的相似度,从而更好地区分不同类别,提高检测精度。
通常,特征提取的不同阶段侧重于不同的方面。浅层特征倾向于关注局部纹理信息,而深层特征更关注全局语义信息。因此,我们不断使用K MRL模块来学习不同层次上所有输入的面部特征之间的关系。
D. Global Feature Aggregation (GFA)
为了利用图像的全局信息来增强局部人脸的分类性能,我们进一步设计了global Feature Aggregation模块,将同一图像内所有人脸级特征的局部特征聚合为图像级全局特征,如图4所示。具体来说,对于包含T个人脸的每张图像X,其中第i个人脸的特征表示为Fi,则图像的全局特征可以表示为FG:
其中ai∈[0,1]表示每个人脸特征的权重,计算式为:
其中W1∈R C, W2∈R C×D为可学习参数,这种权重自适应聚合方法相对于简单的直接聚合更灵活。它也更有效地处理图像中真脸和假脸数量的不平衡。
全局特征聚合约束了整个图像标签对单个人脸特征的提取和聚合过程,从而降低了噪声影响和过拟合的风险。
E. Loss Function
为了更好地从图像中学习局部和全局特征进行多人脸伪造检测,我们设计了不同的损失函数。
1) Contrastive Learning: 对于N张输入人脸,属于同一类别(Real-Real, Fake-Fake)的人脸特征相似度应高于不同类别(Real-Fake)的人脸特征相似度。因此,我们设计了一种对比学习方法来增强人脸特征之间的可分辨性,使同一类别的人脸之间的距离拉近,而不同类别的人脸之间的距离拉开。具体来说,通过多个MRL模块,我们得到了N个人脸的最终特征。假设有I张真脸和J张假脸,其中fRi和fFj分别表示第i张真脸和第j张假脸的特征。对比学习的损失函数Lpush_pull定义为:
式中,FR和FF分别代表真实人脸和伪造人脸的平均标准特征:
2) Loss Function: 我们的FILTER框架的总损失由三部分组成:局部分类损失Llocal、全局分类损失Lglobal和对比损失Lpush_pull。将N个人脸的最终特征FR输入到几个完全连通的层中,预测其真假,并计算交叉熵损失,然后对其求和平均,得到局部分类损失Llocal:
其中,yi为第i个人脸的预测值,yi为其对应的标签。将全局聚合特征FG输入到全连通层,得到图像级预测y,其图像级标签y的交叉熵损失计算为Lglobal:
最后,总损失L定义如下:
其中λ1 λ2 λ3是平衡不同损失的权值。
IV. EXPERIMENTS
本节首先提供了对FILTER评估的详细描述,包括数据集、实现细节、评估协议、baseline等。然后,我们在两个数据集上给出了几种现有流行和最先进的方法的比较结果,并分析了其背后的原因。同时,我们进行了更详细的分析实验并提供了视觉结果,验证了我们的方法确实有效地学习了人脸之间的相关性,提高了多人脸深度伪造检测的性能。此外,我们还进行了一系列消融实验来验证每个模块的有效性,并分析了关键参数对检测性能的影响。
A. Experimental Setups
1) Datasets: 我们使用两个最新的公共和高质量的多人脸伪造数据集,Openforensics[8]和FFIW10K[7],用于我们的主要训练和测试。
Openforensics采用低成本的自动人脸合成流程,生成大量高分辨率、高视觉质量的伪造人脸图像。它包括四个子集:训练、验证、测试(Test- dev)和挑战测试(Test-Challenge)。图像总数达到11.5万张,超过33万张人脸。每张图片平均包含2.9张脸。该数据集包含大量高分辨率图像。与场景相对统一的主流伪造数据集相比,Openforensics数据集包含了更多样化的场景,户外场景占比高达36.3%,更好地反映了现实世界的应用。此外,在挑战测试子集中应用不同级别的扰动来模拟自然场景的上下文,从而增加伪造分类的难度。
FFIW10K是一个视频级多人脸伪造数据集,它使用三种现有的人脸伪造方法来生成不同的伪造人脸,并采用质量评估网络来保留高质量的伪造人脸。它由15000个训练视频、1500个验证视频和3500个测试视频组成。每帧包含1-15个人脸,平均每帧3.5个人脸。在大多数视频中,只有一小部分人脸被处理过,这更好地反映了现实世界的场景。此外,FFIW10K包括脸级和视频级标签。由于这个数据集是视频级的,我们从每个视频中抽取帧进行训练和测试。为了确保可比性,我们从人脸数量较多的视频中提取更多帧,使帧数在不同的人脸数量之间保持平衡。
2) Preprocessing: 为了检测多人脸图像中的人脸并进行进一步的处理和特征提取,可以使用任何流行的目标检测器。在这项工作中,我们只是简单地采用了一个两阶段检测模型,MaskRcnn[57],并在Openforensics[8]数据集上对模型进行微调,使其更适合人脸检测。对于被检测人脸的标签分配问题,我们逐个计算被检测人脸边界框与GT框之间的IOU[58]值,并将IOU值最大的GT框的标签信息分配给被检测人脸。同时,我们将检测到的人脸均匀缩放到256 × 256的大小,作为检测模型的输入。
3) Model Training and Implementation Details: 在我们的训练过程中,我们连续使用3个MRL模块进行人脸特征提取和相关信息的学习。我们将一个完整的effentnet -b4 (EFNB4)[51]模型分为三个部分,并依次放置在三个MRL模块中。这意味着每个MRL模块中用于提取面部空间特征的FSF部分都是EFNB4模型的一部分。对于EFNB4,我们使用其在ImageNet[59]上预训练的权重,而对于其他模块,我们使用随机初始化。采用学习率为2e-5,权值衰减为1e-5的Adam[60]优化器。我们使用开源的PyTorch和4个NVIDIA 3090 gpu来实现我们的框架和实验。
4) Evaluation Metrics: 为了对我们的框架进行全面评估,我们采用了深度伪造检测领域常用的两种评估指标:接收器工作特征曲线下面积(AUC)和精度(ACC)。为了在图像级数据集Openforensics[8]上进行验证,我们将我们的方法与其他帧级检测方法进行了比较,这两个指标都是基于人脸级预测分数计算的。为了在视频级数据集FFIW10K[7]上进行验证,我们遵循之前的工作[7],并在该数据集上计算面部级的AUC分数和视频级别的ACC分数。对于数据集,“image-level”和“video-level”分别表示该数据集由图像或视频组成。在方法上,“image-based”是指主要用于图像伪造检测的方法,“video-based”是指主要用于视频伪造检测的方法。对于标签,“image-level”和“video-level”是指整个图像或视频被标记为真实或虚假,而“face-level”是指图像或视频中的每个人脸都有一个单独的标签。对于度量计算,“face-level”意味着单独评估图像或视频中的每个人脸,而“video-level”意味着只评估整个视频或帧。
5) Baselines on Openforensics Dataset: 我们选择了十种基于帧的单人脸伪造检测方法作为比较的基线。如常用的伪造分类网络Xception[50]和EFNB4[51],展示出了良好的性能。Meosonet-4[9]、meosoinception -4[9]、Patch Resnet Layer1[52]、Patch Xception Block2[52]和Multiattention[12]已经被证明是比较优秀的检测算法[41]。SBI[38]、M2TR[39]和Locateverify[40]是近年来比较突出的伪造检测算法,属于目前最先进的方法。
6) Baselines on FFIW10K Dataset: 在此数据集上,我们遵循之前的工作[7],选择4种基于帧的伪造检测方法Xception[50]、MesoNet[9]、PatchForensics[52]和FWA[56],以及5种基于视频的伪造检测方法TSN[53]、C3D[54]、I3D[55]、S-MIL[17]和FFIW[7]作为我们的基线。S-MIL和FFIW是针对多人脸场景设计的,FFIW在当前的多人脸伪造检测任务中达到了最先进的性能。
B. Results and Analysis
在本小节中,我们通过将我们的方法在两个多人脸伪造数据集(Openforensics[8]和FFIW10K[7])上的各种最新代表性方法进行比较来验证我们的方法。同时,比较了FILTER对不同人脸数量图像的检测性能。此外,我们提供了可视化的热力图来说明我们的方法的有效性。
1) Experimental Results on Openforensics: 我们首先进行了比较实验,以评估我们提出的方法与Openforensics[8]数据集上的基线方法的性能。对比实验结果如表1所示,表明在test - dev和TestChallenge这两个测试子集上,FILTER与所有其他单人脸检测方法相比,表现出优越的检测性能。虽然所有方法在常规测试集(test - dev)上表现良好,但大多数方法的性能在更现实的挑战测试集上明显下降,特别是在ACC分数方面,未能达到令人满意的检测结果。与目前性能最好的单人脸检测方法M2TR[39]相比,FILTER在Test-Challenge子集上的AUC得分提高了0.026,ACC得分提高了7.69%。与其他方法相比,FILTER的改进是革命性的。这清楚地表明,学习人脸特征之间的相关信息显著提高了多人脸场景下的检测性能。
同时,为了更直观地比较我们的方法和在多人脸图像上表现最好的M2TR方法,我们在图5中给出了一个可视化的检测性能比较。从图中可以看出,我们的方法可以在不产生误报的情况下检测出多人脸图像中的所有伪造人脸。
2) Experimental Results on FFIW10K: 为了验证我们的方法在视频级多人脸伪造数据集上的有效性,我们将FILTER与FFIW10K上几种基于帧和基于视频的方法进行了比较。遵循[7]中建立的惯例,我们在人脸层面评估我们的方法,将每个测试视频解析为一组人脸轨迹,并使用每个轨迹中所有人脸的平均分数作为其预测分数。此外,我们报告了用于分类的视频级精度评分(ACC)。如表2所示,实验结果表明,我们的方法明显优于其他比较方法。此外,与之前表现最好的FFIW方法相比,我们的方法在仅使用面部标签作为监督时,在面部级别的AUC得分上取得了0.108的显著提高,在视频级别的ACC得分上取得了8.5%的显著提高。同时使用脸级和视频级标签时,脸级AUC评分和视频级ACC评分分别提高了0.141和11.1%。对于同样用于多人脸伪造检测的FFIW[7]和S-MIL[17],我们的方法显示了在多人脸场景下检测伪造的卓越能力。与所比较的方法不同,FILTER可以同时利用人脸级和视频级标签作为监督。这使得FILTER能够学习面部特征的相关性,同时利用全局信息来提高伪造人脸的检测性能。此外,由于FFIW[7]方法不是开源的,在图6中,我们展示了与基于帧的最佳方法FWA[56]相比,我们的方法在伪造数据集上具有优越的检测性能。
3) Validation of Facial Relationships: 为了验证人脸之间的相关性是否确实有助于多人脸深度伪造检测,我们在OpenForensics数据集的子集Test-Challenge上将FILTER与性能最好的方法M2TR[39]和Locate[40]进行了比较。在不同人脸数量的图像上对所有方法进行测试,结果如图7所示。实验结果表明,当图像只包含一张人脸时,FILTER的性能与M2TR相当。然而,随着人脸数量的增加,FILTER的性能显著提高并超过其他两种方法,这表明FILTER有效地利用了人脸相关性来提高多人脸场景下的检测性能。
然而,我们观察到,当人脸数量达到5个时,FILTER的性能有所下降。这可能是由于数据集中的大多数图像包含2-4张人脸,因此当人脸数量超过4张时,检测性能可能会波动。此外,结果表明,随着人脸数量的增加,所有方法的性能都开始下降。对这一趋势的一种可能解释是,一张图像中的人脸越多,每张人脸的分辨率就会降低,这给伪造检测带来了挑战。此外,图像中每个人脸的姿势和角度的不一致可能会增加检测难度。
4) Attention Visualizations: 为了可视化模型在哪里关注伪造的面部,我们将Grad-CAM[61]应用于Openforensics和FFIW10K上的模型。我们通过预测伪造的人脸来展示人脸图像上的伪影。可视化结果如图8所示。可以观察到,我们的方法有效地关注微区域,特别是伪造面部的被操纵部分(如鼻子和眼睛)。即使在Openforensics的Test-Challenge子集中对图像进行某些特殊处理以模拟真实场景,仍然可以成功检测到伪造区域。可视化结果表明,该方法通过有效地识别伪影,能够正确识别真假人脸。
C. Ablation Studies
在本小节中,我们将执行全面的实验来验证和分析FILTER的不同组件的影响。所有消融实验均采用人脸级AUC和ACC评价指标进行评价。
1) Analysis on Different Modules: 如表3所示,我们对所提出的FILTER的不同模块进行了实验分析。“GFA”部分评估移除模型的GFA模块时的性能。“对比学习”部分评估分别移除模型对比学习的Pull和Push部分以及同时移除Push和Pull部分时的性能。当模型的MRL模块中的FSF子模块被移除时,以及当整个MRL模块被移除时,“MRL”部分评估性能。当上述任何一个模块被移除时,检测性能就会下降。特别是,当整个MRL模块被移除时,表现下降是最显著的。在Test-Challenge子集上,AUC从0.980降低到0.942,ACC从92.04%降低到85.67%。这表明MRL模块通过学习人脸之间的特征关系,有效地提高了检测性能。综上所述,我们设计的FILTER架构是一个有机的整体,每个模块都发挥着重要的作用。
2) Analysis on MRL: 为了验证学习不同特征层次的面部特征之间的关系能有效增强检测,我们使用不同数量的MRL模块进行了实验,结果如表4所示。可以看出,随着MRL模块数量从1个增加到3个,检测性能如预期的那样提高。然而,随着模块数量的不断增加,检测性能并没有继续提高。可能的原因是过多的MRL模块可能会导致有用信息的丢失或冗余,从而导致模型的性能不一定会提高,在某些情况下甚至会下降。因此,实验结果表明,虽然学习不同层次的面部特征之间的关系在一定程度上促进了深度伪造检测,但并不一定越多越好。适当数量的MRL模块不仅可以提高性能,而且可以减少训练和推理时间。此外,为了消除MRL模块中关系学习(RL)组件的影响,我们将RL组件的数量从1个增加到3个,只有一个MRL模块。结果表明,RL成分的数量对检测性能的影响可以忽略不计,进一步验证了我们的假设。
3) Analysis of Model Inference Time: 模型的推理时间通常也是一个重要的度量,因为只有具有高精度和低推理时间的模型才能满足实际应用的要求。如表5所示,我们在Openforensics数据集的test - challenge子集上测试了在深度伪造检测中表现良好的几个模型的推断(Infer T)所需的平均时间。由于所有方法都需要使用目标检测器进行面部检测,因此这里的推断时间不包括目标检测器的推断时间。从结果中可以看出,与大多数方法相比,我们的模型FILTER以更低的推理时间实现了更高的检测性能。与推理时间更短的SBI方法相比,我们的方法显示AUC增加了0.135,ACC增加了11.35%。因此,我们的方法具有优越的综合性能,适合实际应用。
4) Different Weights in Loss: 表VI显示了每个损失组件的不同权重对跨两个Openforensics测试子集(TestDev和test - challenge)的FILTER性能的影响。结果表明,不同的权重可以获得相近的测试性能。因此,我们选择性能最好的参数集λ1 = 1, λ2 = 1, λ3 = 0.1作为我们的最终选择。这组参数也确保了损失值保持在相同的数量级。
V. DISCUSSION AND FUTURE WORK
尽管我们提出的方法显著提高了多人脸场景下的深度伪造检测精度,但在未来的工作中仍有一些限制需要解决。该方法需要两阶段检测,首先使用人脸检测器识别图像中的所有人脸,然后使用相关模型(包括FILTER)检测虚假线索。虽然这种方法达到了很高的准确率,但它需要更长的训练和推理时间,并且严重依赖于人脸检测器的性能。在实际应用中,实时检测也是一个重要的考虑因素。将我们的方法改进为单阶段深度伪造检测方法,在确保高检测性能的同时减少延迟,将更好地适应现实世界的应用需求。
由于我们的方法是基于帧的深度伪造检测,在视频分析中只能通过采样帧进行检测,这可能会忽略重要的帧间信息。我们希望在未来的迭代中通过整合面部区域定位功能来解决这个限制。此外,目前可用的开源deepfake数据集主要由室内环境中收集的单人脸数据组成。我们期望有更多的开源数据集描绘具有多个人脸的真实世界场景,以推动该领域的更深入研究。
另一个需要讨论的重要问题是,我们的方法侧重于提高多人脸场景下人脸伪造检测的准确性,但在本工作中没有解决伪造定位问题。我们充分认识到在实际应用中定位伪造人脸的重要性。我们的方法可以与具有分割能力的主干(如Mask R-CNN)结合来实现定位。我们计划在未来的工作中进一步探索这方面,并开发专用的定位算法。此外,虽然跨数据集泛化仍然是伪造检测领域的一个重大挑战,但它并不是这项工作的主要重点。与之前的研究一致,我们在相同的多人脸数据集上进行训练和测试。然而,我们打算在未来的工作中研究增强跨数据集泛化的方法。
VI. CONCLUSION
在本文中,我们提出了一种新的FILTER方法来检测多人脸场景下的深度伪造。它主要包括两个模块:Multi-face Relationship Learning模块,学习人脸之间的信息相关性,挖掘潜在信息;Global Feature Aggregation模块,将同一张图像中所有人脸的特征聚合为全局特征,建立局部人脸特征与全局标签之间的联系,从而从全局角度协助深度分类。此外,我们还结合了对比学习来增强对不同真假面部特征的区分。我们在两个公共数据集上的实验结果表明,FILTER可以有效地检测单个图像中的多个被操纵的人脸,并且在多人脸伪造场景中显着优于几种基线和最先进的方法。