Contrastive Multi-FaceForensics: An End-to-endBi-grained Contrastive Learning Approach forMulti-fa

paper: https://arxiv.org/pdf/2308.01520.pdf

code:

Abstract

深度伪造引起了严重的社会关注,导致近年来基于检测的取证方法激增。人脸伪造识别是传统的检测方法,通常采用两阶段流程:首先提取人脸,然后通过分类确定其真伪。由于野外的DeepFakes通常包含多个人脸,使用人脸伪造检测方法仅仅是实用的,因为它们必须按顺序处理人脸,即同时只处理一个人脸。解决这个问题的一个直接方法是通过采用先进的对象检测体系结构,以端到端的方式集成人脸提取和伪造检测。然而,由于这些目标检测架构旨在捕获不同对象类别的语义信息,而不是人脸之间微妙的伪造痕迹,因此直接自适应远远不是最佳的。在本文中,我们描述了一个新的端到端框架,对比多面取证(COMICS),以增强多面伪造检测。所提出的框架的核心是一种新的大粒度对比学习方法,该方法在粗粒度和细粒度水平上探索有效的人脸伪造痕迹。其中,粗粒度层次对比学习在proposal生成器的指导下捕获多尺度上正面和负面proposal对之间的区别特征,细粒度层次对比学习捕获同一张脸的伪造区域和原始区域之间的像素级差异以及不同面部之间像素级内容的不一致。在OpenForensics数据集上进行的大量实验表明,我们的方法在很大程度上优于其他方法(约18.5%),并且显示出集成到各种架构中的巨大潜力。

索引术语:深度伪造,多面伪造检测,对比学习

I. INTRODUCTION

DEEPFAKE是指使用深度生成模型[1],[2]的人脸伪造技术,可以大规模合成高度逼真的人脸,从而可以制作假冒公众人物的假视频,或者方便地在色情视频中植入受害者的人脸。滥用DeepFake作为虚假信息的手段引起了人们的严重关注,并促使人们开发针对DeepFake的对策[3],[4]。

目前,大多数DeepFake检测方法[5]-[8]遵循一种称为人脸伪造识别的两阶段流程[9]:首先,使用人脸检测器提取人脸;然后,将这些人脸分类为real或DeepFake(图2(左))。人脸伪造识别方法在只包含一张人脸的图像或视频中表现良好。然而,在现实世界的应用中,一个图像或视频帧可能有多个脸。应用两阶段方法是不切实际的,因为它们只能按顺序逐个处理,从而导致更长的运行时间或资源紧张。

为了暴露这些两阶段方法的局限性,OpenForenscis数据集[9]被提出来鼓励开发端到端管道,同时完成人脸检测和伪造检测。直接的解决方案是将先进的目标检测架构直接用于该任务,并且已经证明这种适应对于提取多面DeepFakes是可行的。然而,由于目标检测器的设计目的是学习不同类别之间的语义特征,而不是学习真实人脸和DeepFake人脸之间的细微特征,因此直接的适应并不能产生令人满意的结果(参见第VII-B节)。因此,需要额外的努力来集中网络挖掘人脸伪造痕迹。

在本文中,我们探索了一个新的端到端框架,称为对比多面取证(COMICS),它在一个步骤中解决了多面伪造检测的任务(图2(右))。我们框架的核心组件是一个新的提出的双粒度对比学习方案,以暴露人脸之间的伪造痕迹。具体来说,双粒度对比学习方案包括粗粒度和细粒度级别的对比学习。对于粗粒度的对比学习,我们首先从人脸对应的特征提取器中获取不同尺度的特征表示,并设计正面和负面之间的对比学习,以捕获真假人脸之间的全局差异。然后,我们考虑细粒度对比学习来获得局部伪造痕迹。我们首先从掩码预测器中获得每个人脸对应的特征映射,然后在像素级上进行人脸内部和人脸之间的对比学习。人脸内部学习的目的是捕捉同一张人脸的伪造区域和原始区域在像素上的差异,而人脸间学习的重点是学习真假人脸在像素上的内容不一致。结合目标检测器的原始目标,我们的框架可以更有效地在端到端管道中暴露人脸伪造(图3)。此外,我们提出了一个频率增强注意力模块,该模块由SRM滤波器[10]和空间注意[11]组成,以进一步提高特征的有效性。在OpenFaceForensics数据集上进行了大量的实验,与许多最先进的对象适应进行了比较,证实了我们的方法在检测多人脸伪造方面的优越性。我们还进行了全面的消融实验,以探索不同配置的影响,并证明我们的方法可以集成到各种架构中。

我们的贡献总结如下:

我们描述了对比多面取证(COMICS),这是一种用于野外多面伪造检测的端到端对比学习框架。与直接从目标检测中进行自适应相比,我们的框架是第一个专门解决这一任务的框架。

在这个端到端框架下,我们提出了一种新的双粒度对比学习方案,该方案考虑粗粒度和细粒度对比学习,以面间和面内两种方式分层捕获proposal-wise和像素级伪造痕迹。这种学习方案是即插即用的,很容易适应不同的体系结构。

实验结果表明,提出的方法在OpenForensics数据集上显著优于其他最先进的方法(约18.5%)。我们还对我们的方法进行了多方面的研究,包括各个层次的对比学习的效果,以及不同的参数和设置,为后续的研究提供了更多的见解。

II. RELATED WORKS

人脸伪造识别。传统的方法通常是基于两阶段的,首先提取人脸区域,然后将其分类为真假类别。不同类型的线索被用于分类,包括生理信号(如眨眼[12]、头部姿势[13]、[14]、血流和心跳[15]、域不一致[16]-[20])和信号异常(如面部扭曲伪影[21]、PRNU差异[22]、[23]和频率伪影[24]-[26])。其他方法设计特定的架构[27]-[29]和数据增强[21],[30]来学习有效特征。为了进一步提高检测性能,提出了许多数据集,如faceforensics ++[31]、Celeb-DF[32]、DFDC[33]等。这些数据集是在受限的环境中构建的,每个视频中只包含一个主题。然而,在这些数据集上的良好甚至完美的性能并不能代表现有方法的有效性,因为野生场景通常包含多个均匀密集的人脸,而两阶段方法无法有效地处理这些人脸。

多面伪造检测。为了解决上述问题,OpenForensics数据集[9]被提出,以鼓励对多面伪造检测的单阶段方法的研究。在这项工作中,几种先进的目标检测器直接适用于这项任务,以同时检测人脸区域及其真实性[34]-[40]。尽管微小的适应性显示了检测多面伪造的可行性,但它们并不是最佳解决方案,因为它们不是用来捕捉微妙的伪造痕迹的。因此,在本文中,我们提出了一个新的单阶段框架,可以使用一种新的双粒度对比学习方案来暴露DeepFake合成的痕迹。

对比学习。对比学习是无监督和有监督视觉表示学习领域中最引人注目的方法之一[41]-[43],它被广泛应用于目标检测[44]-[46]、分割[47]、[48]、医学图像[49]、去雨[50]、人物再识别[51]、[52]、个性化推荐[53]、[54]、图像字幕[55]、[56]和自然语言理解[57]。受对比学习的启发,[58]的工作集中在音频和视觉模式之间的不一致性,并使用对比损失为DeepFake视频检测建模模态间相似性。[59]的工作提出了一种三重网络,在嵌入特征空间中增加真假视频之间的特征距离。CFFN[60]使用暹罗网络和对比损失来学习判别特征,对gan生成的人脸进行分类。DCL[61]是考虑不同实例级对比学习的最相关的方法。然而,这些方法是为两阶段框架设计的,因此不适用于单阶段框架。为了充分突出我们的方法的新颖性和贡献,我们在第VII-D节中详细阐述了我们的方法与DCL的区别。

III. CONTRASTIVE MULTI-FACEFORENSICS

在本文中,我们提出了对比多面取证(COMICS),致力于以端到端方式捕获多个脸之间的伪造痕迹。与传统的人脸伪造识别方法相比,该方法通过考虑人脸之间的粗粒度和细粒度对比信息水平,可以同时暴露多个人脸伪造。

网络架构原型。我们方法的网络架构来源于最近的目标检测器[62]-[64]。对象检测器是端到端的架构,通常分别包含一个特征提取器、一个proposal生成器和一个掩码预测器。他们可以同时定位对象并给出其语义类别。通过简单地将对象类别限制为真假两类,这些架构可以适应多人脸伪造检测,自然在一定程度上解决了人脸伪造识别方法的局限性[9]。受此启发,我们采用端到端架构,提出了一种针对特征提取器、proposal生成器和掩码预测器定制的新的双粒度对比学习方案。

双粒度对比学习。一般的对比学习策略启发了我们的方法,因为通过检查人脸之间的关系可以进一步暴露伪造痕迹。具体地说,我们的方法在端到端架构的粗粒度(proposal-wise)和细粒度(像素方面)级别上寻找这些关系。特征提取器中的特征元素对应不同的人脸proposals,掩码预测器中的特征元素对应人脸的不同像素。应用双粒度对比学习可以提高网络在不同层次捕捉伪造痕迹的能力。使用具有原始端到端目标的双粒度对比学习方案可以同时有效地检测人脸及其真实性。图3显示了拟议框架的概述。接下来,第四节和第五节将分别介绍粗粒度和细粒度对比学习的细节。

IV. COARSE-GRAINED CONTRASTIVE LEARNING   粗粒度对比学习

粗粒度对比学习主要依靠特征提取器捕捉正面和负面proposals之间的区别性伪造特征,即将同一类别proposals的特征拉近,将不同类别proposals的特征推开。对于输入图像,我们生成两个不同视图的样本,并设计一个用于对比学习的特征提取器副本。然后将这两个样本分别输入到各自的特征提取器中得到proposals。通过将proposals与人脸匹配,我们进行对比学习以捕获proposals级的伪造痕迹。图4显示了粗粒度对比学习的概述。下面分别介绍了数据视图配置和对比学习配置。

A. Data View Configuration.

在一般的分类任务中,通常使用传统的数据增强方法(如随机裁剪、随机翻转、随机旋转)来创建不同的数据视图以进行对比学习。由于主要内容在图像内部,使用这些增强可以始终保留主要内容,并使网络能够学习与内容相关的特征。但在我们的任务中,图像通常包含多个脸,我们的目标是探索这些脸之间的关系。因此,这些一般的增强是不合适的,因为它们可能会破坏人脸的位置。给定proposals生成器,两个视图之间的人脸位置应该匹配,以便轻松抓取对应的人脸进行对比学习(见图4)。为此,我们利用以下增强方法作为增强的第二步:1)颜色偏移和灰度转换。对于颜色偏移,我们分别以50%的概率随机改变图像的亮度、对比度、饱和度和清晰度。对于灰度转换,我们将RGB图像转换为灰度增强。2)随机阻塞。我们将图像划分为10 × 10块,并随机分割2 ~ 6%的块以强调伪造线索。3)额外的噪音。我们使用高斯噪声和椒盐噪声。4)线性插值。我们首先将图像缩小到1/4大小,然后将其插入到原始大小。这些增强方法对人脸位置的影响可以忽略不计,但可以干扰语义内容以揭示伪造痕迹。给定图像I∈RH×W ×3, Iq和Ik是使用上述增强的两个视图。

B. Contrastive Learning Configuration.

将特征提取器记为Fq,参数为θq。为了实现对比学习,我们采用MOCO[42]中的策略来构建参数为θk的相同特征提取器Fk。特征提取器Fk更新为

其中β是控制更新的指数超参数。

将图像Iq输入特征提取器Fq,可以得到一组特征为{Fq 1,…, f qn} = Fq(Iq)。将proposals生成器作为P。然后将这些特征发送到proposal生成器中,以创建针对每个特征的proposals,如{pq 1,…, P qn} = P(Fq(Iq)),其中P q i表示在第i个特征上生成的proposals集合。同样,对于图像Ik,我们可以从复制的特征提取器中得到一组特征:{f k1,…, f kn} = Fk(Ik)。然后将这些特征发送到同一个proposal生成器P中,以创建相应的proposals,记为{P k1,…, P kn} = P(Fk(Ik))。

Inter-faces。对于i的特定尺度,我们可以得到与输入图像Iq和Ik对应的两个proposal集pqi和pki。如果该proposal与任意真实(假)脸之间的IoU大于0.6,则该proposal被视为真实(假)。然后从特征提取器中找到每个proposal对应的特征表示。为了进行对比学习,我们设计了两个队列,一个真实人脸队列QRi和一个假人脸队列QFi来存储相应proposals的特征表示。这些队列在训练中动态更新。将pqij和pkij分别表示为pqi和pkij在第i个尺度上的第j个proposal的特征表示。{pRi}和{pFi}是用于更新真人脸队列QRi和假人脸队列QFi的两个原型。如果pkij对应于一个假proposal,则原型pFi被更新为

其中α是控制更新的因子,类似于[61]。为了更新QFi,我们在批处理中计算pFi和pkij之间的相似度,并将最不相似的(前5)特征推入QFi。如果pkij对应于一个真实的proposal,则pli和QRi的更新方案相同。两个proposals之间的相似度是用余弦相似度来衡量的

请注意,在一定规模上,proposals的数量可能很小。因此,我们利用FlatNCE[65]来消除由于训练批中样本数量不足而导致的浮点溢出。第i个尺度的目标可以定义为

其中Detach(·)是阻止浮点相对误差梯度反向传播的操作,τ是温度参数。Q−表示pij对应的负队列,其中当pij对应真实人脸时,Q−= QFi,否则Q−= QRi。

多尺度集成。由于不同尺度包含不同层次的信息,我们对方程4进行了扩展。多尺度对比损失为

其中ωi是不同尺度的权重因子。

V. FINE-GRAINED CONTRASTIVE LEARNING   细粒度对比学习

除了粗粒度级别,我们还考虑了细粒度对比学习,其重点是面内和面间配置中的逐像素关系。面内配置的目的是了解篡改区域与周围原始区域在同一脸中的不一致性,而面间配置的目的是探索不同脸之间像素上的差异。细粒度对比学习的概述如图5所示。

A. Contrastive Learning Configuration

将掩码预测器记为M,根据上述建议,我们可以得到预测掩码对应的特征映射为{h1,…, hm} = M(P(Fq(Iq)))。这里我们将不同尺度的proposals混合成一个集合,其中hj是第j个预测掩码的特征映射。然后,我们将特征映射和相应的预测掩码调整为固定的大小,用于后续的计算。用HR和HF分别表示真实人脸和假人脸对应的预测掩码的特征映射。注意,掩码总是覆盖脸部区域和背景区域。对于hj∈HR,人脸部分和背景部分都是原始的。但是对于hj∈HF,在背景保持原始的情况下,对人脸部分进行了处理。为了在像素级别上学习人脸内部和人脸之间的伪造痕迹,我们将每个预测掩码分成两组。其中,当hj∈hR时,我们将hR+ j和hR−j分别表示为人脸区域和背景的特征映射,否则分别表示为hF + j和hF−j。

值得注意的是,我们没有考虑到接近伪造边界的像素,因为人脸伪造方法通常在边界上进行后处理以去除伪影,从而阻碍了其与其他像素相比具有代表性的伪造特征。在我们的方法中,我们丢弃距离边界在两个像素以内的像素。掩模的分裂如图6所示。接下来的章节将介绍面内对比学习和面间对比学习。

Intra-face。对于一张假脸,伪造区域的特征应该与背景的特征不同,因此我们最大化了这两个区域之间的距离。但对于一张真实的脸,这些特征应该是相似的,因此我们最小化这两个区域之间的距离。因此,面内学习可以表述为

其中δ(·)是两个区域之间的归一化余弦相似度,如

式中,o表示一个像素的特征表示。τ是温度参数。

Inter-face。与面内对比学习考虑一张脸内部的内容差异不同,面间学习侧重于探索不同脸之间的关系。由于真假人脸的背景都是原始的,我们将真假人脸的背景特征拉近。相反,真脸和假脸的面部面积应该是不同的,这样我们就把它们对应的特征推掉了。面间对比学习可以定义为

式中,H−表示hj的负集,即hj为假时,H−对应HR,否则H−对应HF。

VI. FREQUENCY ENHANCED ATTENTION AND OVERALL OBJECTIVES

频率增强注意力。受前人研究[6],[66],[67]的启发,频域可以有效地暴露伪造痕迹,我们设计了一个简单的频率增强注意,以增强高频元素所表示的特征的重要性。

由于空间丰富模型(SRM)滤波器[10]已经证明了其在提取高频信号方面的有效性,我们将其应用于输入图像和特征上,以突出频率重要特征。如图7所示,我们构建了一个新的分支,该分支包含两个卷积层,然后是批处理归一化(Batch Normalization, BN)[68]和ReLu激活,以及一个空间注意层[11]。该分支的输出将乘以特征提取器的输出。

总体目标。首先,我们通过简单地将语义对象类别修改为真实和虚假面孔的类别,使普通对象检测目标适应我们的任务。将这种简单适应的客观损失记为Ldetect。

考虑到粗粒度和细粒度的对比学习,双粒度对比学习的目标可以写成

其中λ1, λ2和λ3是双粒度对比学习组件的超参数。与Ldetect一起,我们可以端到端暴露多面伪造(图3)。

VII. EXPERIMENTS

A. Experimental Settings

数据集。实验是在OpenForensics上进行的[9],这是一个最近发布的大规模人脸伪造数据集。OpenForensics数据集具有丰富的注释,包括类(真假)、人脸伪造位置和掩码,适用于多人脸伪造检测和分割。训练集包含44,122张图像,其中包含85,392张真实面孔和65,972张假面孔。该验证集包含7,308张图像,其中包括4,786张真实面孔和10,566张假面孔。该数据集根据检测的挑战级别有两个测试集,即测试-开发集和测试-挑战集。测试-开发中的图像与训练集具有相同的分布,而测试-挑战集中的图像经过了许多操作处理,如分块失真、颜色处理和随机噪声,参见图8中的示例。测试开发集有18,895张图片,其中有21,071张真实面孔和28,670张假面孔,而测试挑战集有45,000张图片,其中有49,218张真实面孔和68,452张假面孔。

评价指标。遵循[9]中相同的设置,我们使用COCO-style平均精度(AP)和定位召回精度(LRP)误差进行评估。具体来说,我们使用平均AP、APS、APM和APL来评估结果,其中S、M和L分别代表小型、中型和大型对象。对于LRP,我们给出了平均最优LRP (oLRP),定位(oLRPLoc),假阳性率(oLRPF P)和假阴性率(oLRPF N)的结果。AP越大,oLRP越小,性能越好。

实现细节。所有实验均在配备NVIDIA GeForce RTX 3090 GPU的计算服务器上进行。基本架构是BlendMask[62],它使用FPN-ResNet50[69]作为特征提取器。在训练中,初始学习率设置为0.01,批大小设置为8。我们在OpenForensics的训练数据集上训练了12个epoch的模型。在第8次和第10次迭代时,学习率下降了1/10。式(9)中的权超参数设为λ1 = 0.5, λ2 = 0.1, λ3 = 0.1。对于粗粒度和细粒度对比学习,我们设置温度超参数τ = 0.7,指数超参数β为0.999,原型更新参数α为0.9。我们在粗粒度学习中选择第3、4、5、6、7个特征层。这些层的权重设置为0.1、0.2、0.4、0.7和1.0。

B. Results

表2显示了我们的方法与测试开发集上几种最先进的方法的性能比较。比较的方法改编自原始OpenForensics工作中的对象检测器[9]。结果表明,我们的方法在检测和分割任务中具有最佳的平均AP和oLRP性能,在AP和oLRP方面平均优于亚军(BlendMask) 2.2%和2.9%。在其他指标中也可以观察到类似的趋势。为了全面论证,我们绘制了AP和oLRP的散点图。由于AP越高,oLRP越低,性能越好,因此图中的左上角是最好的。如图9所示,我们的方法接近左上角,明显优于其他方法。

测试挑战集包含使用不同转换处理的更具挑战性的图像。如表III所示,与测试开发集中的情况相比,所有方法的性能都显著下降。然而,与其他方法相比,我们的方法在所有指标上都有显著的改进。例如,我们的方法在AP和oLRP上的平均表现比第二好的方法BlendMask高出21.7%和23.7%,这极大地证实了所提出的双粒度对比学习即使在具有挑战性的场景中也能比其他琐碎的适应方法更有效地捕获伪造痕迹。与上述类似,我们也在图10中绘制了AP和oLRP的散点图,表明我们的方法在检测和分割任务上都明显优于其他方法。

与测试开发集上的性能相比,我们可以观察到我们的方法显著提高了测试挑战集上的检测结果。这是因为测试开发集中的伪造痕迹相对容易被所有方法捕获。然而,测试挑战集中的图像经过各种变换,高度抑制了伪造痕迹。因此,微不足道的适应是无能的。相比之下,我们的方法通过对比学习进一步考虑了真假人脸之间的关系,从而可以更有效地捕获区别特征。

图11显示了检测结果的几个可视化示例。我们使用BlendMask作为比较的例子。

左组是测试开发集的结果,右组是测试挑战集的结果。如图11所示,本文提出的COMICS大大提高了人脸检测率。可以看出,BlendMask无法识别(f)左和(d)右中的人脸,并且错误识别了(e)左和f(右)中的假人脸,而我们的方法成功地检测了人脸和伪造。得益于细粒度学习,我们的方法还可以估计真实和虚假面孔的边界,如图(c)右和(f)左所示。

C. Ablation Study

不同成分的作用。本部分研究了COMICS不同组成部分的影响,包括提出的数据增强、频率增强注意和双粒度对比学习。测试开发和测试挑战集的结果显示在表4中。注意,我们使用BlendMask作为基础架构。DA、FEA和双粒度分别表示专门设计的数据增强、频率增强注意模块和提出的双粒度对比学习。在不使用任何组件的情况下,我们的方法降级为基本体系结构(第一行)。表4显示,建议的数据增强使测试挑战集在AP上平均提高20.0%,在oLRP上平均提高20.4%,这表明精心设计的数据增强揭示了伪造的痕迹。与基本架构相比,频率增强注意力和双粒度对比学习分别在测试开发集上带来了AP 2.6%和oLRP 3.2%的平均增量,在测试开发集上带来了AP 2.5%和oLRP 2.6%的平均增量,在测试挑战集上带来了AP 13.9%和oLRP 13.4%的平均增量,在测试挑战集上带来了AP 15.3%和oLRP 15.5%的平均增量。此外,我们注意到双粒度对比学习提高了小对象上的AP,表明SRM的注意力更多地集中在伪造痕迹上。可以看出,我们的方法的所有组成部分对两个集合的性能都有积极的影响。与基线相比,在测试开发集和测试挑战集上,我们的方法在AP、oLRP和AP分别平均提高了2.2%、2.9%和21.7%、23.2%的性能。

粗粒度对比学习的影响及相关研究。本部分研究了不同成分对测试开发集和测试挑战集的影响,包括粗粒度对比学习的影响和使用多尺度的影响。表5显示了使用和不使用粗粒度对比学习的性能。注意,None表示不使用双粒度对比学习,CL表示使用粗粒度对比学习,CL w.o.MS表示不使用多尺度进行粗粒度对比学习。结果表明,粗粒度对比学习在测试开发集和测试挑战集上的表现在AP和oLRP上分别提高了2.1%和2.8%,在AP和oLRP上分别提高了21.5%和23.3%。为了证明多尺度的效果,我们通过融合所有尺度的建议作为一个整体,将其从粗粒度学习中去除。如表5所示(Coarse w.o. MS),在测试开发集上,AP组性能下降1.7%,oLRP组性能下降6.2%,在测试挑战集上,AP组性能下降2.6%,oLRP组性能下降3.0%,表明了多尺度的影响。

细粒度对比学习的影响及其相关研究。

本部分研究了使用细粒度对比学习(FL)、只使用面内损失(FL w.o. inter)和只使用面间损失(FL w.o. intra)的效果。结果如表5所示。通过添加细粒度对比学习,在测试开发集上,AP和oLRP的性能分别提高了2.0%和2.7%,在测试挑战集上,AP和oLRP的性能分别提高了20.8%和22.6%。此外,面内损失(FL w.o. inter)在AP和oLRP测试集上平均提高了11.3%和12.1%的性能。面间损失(FL w.o. intra)带来11.3%和12.4%的性能提升,这表明在面间和面内进行细粒度对比学习是有效的。

细粒度对比学习中的样本选择。这一部分研究了不同样本选择对细粒度对比学习的影响。具体来说,我们探讨了另外两种情况,选择靠近伪造边界的样本(close)和选择所有样本(all)。请注意,在我们的方法中选择远离伪造边界的样本。表VI显示了使用不同样本选择的性能。可以看出,使用远离伪造边界的样本可以获得最佳的性能,这是因为伪造边界通常通过图像处理方法进行平滑处理,从而干扰了附近样本的特征表示。

损失中不同权重的影响。表7分别显示了测试开发集(上)和测试挑战集(下)上双粒度对比学习损失的不同权重的性能。其中,λ1从{1,0.5}中选取,λ2从{1,0.5,0.1}中选取,λ3从{1,0.1}中选取。实验结果表明,不同权重下的图像处理效果相近,证明了该方法对不同权重的鲁棒性。在我们的方法中,我们使用λ1 = 0.5, λ2 = 0.1和λ3 = 0.1。

不同温度对双粒度对比学习的影响。温度在双粒度对比学习中起着重要的作用,因为它控制了对困难例子的惩罚力度。在这一部分中,我们研究了双粒度对比学习中不同温度超参数对Tab8中的测试开发集和测试挑战集的影响。具体来说,我们分别设置τ为0.07,0.2,0.7。注意,小温度使模型能够更多地关注硬示例,这与Tab8中的结果一致。小温度在测试挑战集上略微提高了性能,但在测试开发集上略有下降。在我们的方法中,我们取τ = 0.7以获得更好的平衡。

将我们的框架集成到不同的体系结构中。为了证明所提出的双粒度对比学习的有效性,我们将其集成到其他不同的检测架构中:MaskRCNN [70], ConInst [64], MEInst[38]和SOLOv2[37]。结果显示在Tab9中。表IX表明,所提出的框架提高了所有基准测试的检测和分割性能。MaskRCNN是一个著名的两阶段模型,它执行检测-然后分割,在AP和oLRP下,该框架的性能平均提高了15.2%和11.1%。ConInst和MEInst是两个单阶段检测模型。集成后的ConInst性能在AP上平均提高了11.6%,在oLRP上平均提高了11.3%。在AP和oLRP中,MEInst的平均改善率分别为13.1%和12.6%。对于SOLOv2,在AP和oLRP下分割性能平均提高了8.7%和8.2%。这个实验可以证明,所提出的对比多面取证框架可以集成到各种体系结构中。

D. Discussions

突出创新和贡献。如第二节所述,DCL[61]是与我们最相关的方法,它是一种最新的两阶段人脸伪造检测方法,也在不同层次上利用了对比学习。因此,我们以DCL作为最具代表性的对应物,并精心强调了我们的方法的新颖性和贡献如下。

1)任务差异。DCL属于人脸伪造识别任务,提取人脸并进行分类。相比之下,我们的方法侧重于多面伪造检测,同时以端到端方式完成多面伪造检测。从根本上说,DCL是针对分类任务的,而我们的是针对检测任务的,这自然导致了这两个工作的架构有很大的不同。因此,很难也不太可能将DCL中提出的策略直接适应我们的框架。

2)架构和相应原则的差异。DCL利用典型的分类网络。由于视图中只包含一张人脸,因此网络的整个特征图可以表示该人脸。然而,对比多脸是基于基于无锚点的检测架构(例如,BlendMask),它分别包含一个骨干网络、一个proposal生成器和一个掩码预测器。由于视图中有许多人脸,因此与DCL相比,这些特征具有完全不同的含义,不是对应于单个人脸,而是所有人脸的混合物。DCL很容易对特征进行对比学习。与此同时,我们的工作情况有所不同,因为我们需要更深入地研究结构,并使用proposal生成器和掩码预测器来解开感兴趣的特征,以寻求不同面孔之间的关系。

3)双粒度对比学习的新颖性。我们和DCL都从MOCO的工作中借用了对比学习的概念[42]。这个公式是相似的,因为我们都想找到特定单位之间的关系。但不同的是如何选择和制定单位,例如,队列和相应的精神有不同的含义。与DCL中的普通对比学习相比,我们的方法包含粗粒度对比学习,在proposal生成器的指导下执行提案,以及细粒度对比学习,在掩码预测器的指导下以面间和面内像素的方式执行。尽管DCL也考虑了面间和面内,但它们与我们完全不同,因为DCL中的面间测量的是不同图像中人脸之间的关系,而不是同一图像中的proposals,而面内只测量人脸内部像素之间的关系,而不考虑不同的人脸。因此,它们不能处理多面伪造检测问题,难以应用于单阶段体系结构。

数据集的选择。请注意,用于多人脸伪造检测的数据集数量明显少于用于传统人脸伪造识别的数据集数量。据我们所知,最近的OpenForensics数据集[9]和FFIW数据集[71]在一个视图中包含多个人脸。但是,FFIW数据集只包含假人脸的ground truth,而真实人脸的位置未知,因此不适合我们的任务。相比之下,OpenForensics数据集对真实和虚假的人脸有完整的注释,可以友好地用于我们的方法的训练和测试。

局限性。对比多人脸取证是在最新的检测体系结构(基于锚点或无锚点)上设计的。因此,它可能继承了这种架构的缺点,例如对小面孔不敏感。表2的结果证明了这种限制,我们的方法在检测小人脸方面略有下降。

VIII. CONCLUSION

在本文中,我们描述了一个新的框架,称为对比多面取证(COMICS),用于多面伪造检测。与现有人脸伪造识别方法不同的是,该方法采用了双粒度对比学习方法,可以在一个视图中同时暴露多张真假人脸。与现有的对象检测器的琐碎自适应相比,双粒度对比学习方案从粗粒度和细粒度两个角度致力于捕获单阶段体系结构中的伪造痕迹。在特征提取器上进行粗粒度学习,在proposal生成器的指导下,以多尺度的方式关注proposal级的差异。

细粒度学习侧重于掩码预测器获得的特征映射,并针对面间和内部配置的像素差异。在OpenForensics数据集上进行了大量实验,并与最近的几个对应数据进行了比较,结果表明,我们的方法在具有挑战性的场景中明显优于其他方法。我们还进行了全面的消融研究,以调查涉及双粒度对比学习配置的不同设置的影响。

  • 20
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值