Pre-training-free Image Manipulation Localization through Non-MutuallyExclusive Contrastive Learnin

最新推荐文章于 2024-05-21 17:26:41 发布

吼吼吼哈哈哈诶诶诶

最新推荐文章于 2024-05-21 17:26:41 发布

阅读量633

点赞数 8

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_43780665/article/details/135138893

版权

paper: https://arxiv.org/pdf/2309.14900.pdf

code: https://github.com/Knightzjz/NCL-IML

Abstract

深度图像处理定位(IML)模型训练数据不足，严重依赖于预训练。我们认为对比学习更适合解决IML的数据不足问题。形成相互排斥的正集和负集是对比学习的先决条件。然而，在IML中采用对比学习时，我们会遇到三类图像补丁:篡改补丁、真实补丁和轮廓补丁。篡改补丁和真实补丁自然是互斥的，但是同时包含篡改像素和真实像素的轮廓补丁是不互斥的。简单地放弃这些轮廓补丁会导致剧烈的性能损失，因为轮廓补丁对学习结果是决定性的。因此，我们提出非互斥性对比学习(NCL)框架，将传统的对比学习从上述困境中解救出来。在NCL中，为了应对非互斥性，我们首先建立了一个具有双分支的支点结构，在训练过程中不断地在正、负之间切换轮廓补丁的作用。然后，我们设计了一个轴心一致的损失，以避免角色转换过程造成的空间腐败。这样，NCL既继承了自监督的优点，解决了数据不足的问题，又保持了较高的操作定位精度。大量的实验证明，我们的NCL在没有任何预训练的情况下在所有五个基准上都达到了最先进的性能，并且在未见过的真实样本上更加稳健。https://github.com/Knightzjz/NCL-IML。

1. Introduction

媒体技术的惊人进步使我们越来越容易地操纵图像。图像处理定位(IML)在防御性信息取证中是不可或缺的，也是信息安全行业大力投入的一项技术。目前，数据不足是构建深度IML模型最突出的问题。由于密集的注释和篡改识别的专业知识过高，IML的公共数据集都很小(只有几百到几千张图像)，严重不足以训练深度cnn。因此，主要的深度IML方法在额外的大规模数据集上进行预训练。

一般来说，IML模型的预训练依赖于合成数据集。一方面，合成数据集消除了高昂的标注成本，对合成数据集进行预训练可以避免过拟合。另一方面，使用合成的数据集进行预训练会妨碍模型之间的公平比较，甚至会影响模型的泛化性。预训练对模型性能至关重要，为了公平比较，相同任务的模型通常在相同的数据集上进行预训练。然而，IML模型的合成预训练数据集在标注数量和质量上存在显著差异。例如，ManTra-Net[34]基于在自收集的、102028张图像和385种操作类型的像素标记数据集上进行预训练;RGBN[38]使用了一个随机合成的超过42000张图像的数据集;BusterNet[33]需要10万张复制移动图像的合成数据集进行预训练;MVSS[9]采用了84000张图像的合成数据集。在不同的合成数据集上预训练的模型的可靠评估变得不可能。此外，与真实的篡改图像不同，这些直接合成的图像严重缺乏精细的后处理来掩盖其操纵痕迹或伪影[5,29,9]。换句话说，合成数据集的采样过程与人工构建数据集的采样过程存在偏差[36,37]。在这种带有采样偏差的数据集上学习的模型泛化能力较差，在小尺寸的非同源基准上测量该模型并不能完全揭示其在实际情况下的不良性能。

为了在不引入这种棘手的预训练策略的情况下解决数据不足的问题，我们提倡在IML中采用对比学习。一方面，自监督对比学习可以从真实的篡改图像中产生大量的对比对。这些对比对将训练样本数量至少提高了一到两个数量级，而不会造成抽样偏差或不公平的评估。另一方面，操纵会在图像中留下伪影，而伪影会导致篡改区域和真实区域之间的特征差异。这是人类专家识别篡改区域的基本线索。对比学习目标明确地遵循这一线索，通过鼓励正对之间的紧密性和负对之间的边际性来揭示重要的特征差异。

虽然最近的研究提出像素级对比学习用于像素预测[35]，但逐块对比学习仍然更适合于IML。由于操作很少逐像素发生，因此补丁级特征在描述操作痕迹或伪影方面被证明是突出的[22]。因此，在我们的方法中，阳性和阴性自然是纯篡改或真实像素的篡改和真实图像补丁。图像补丁的大小是固定的，而被操纵区域的形状和大小是任意的。如图1中图所示，沿着被篡改区域的轮廓进行采样时，篡改像素和真实像素不可避免地会在一个图像patch内混合在一起。然后，我们有第三个补丁-轮廓补丁。显然，轮廓补丁与篡改补丁和真实补丁并不相互排斥。在这种三边、非互斥的情况下，用于处理二值集之间互斥关系的传统对比学习将会失效。然而，简单地丢弃轮廓补丁，仅仅使用篡改补丁和真实补丁进行对比学习是不可行的。先前的研究[23,28,21,22]表明，伪影沿着篡改区域的边界聚集。因此，丢弃轮廓补丁就意味着丢弃了具有最丰富伪影信息的样本。此外，轮廓补丁同时包含篡改像素和真实像素，是对比学习的硬阳性或阴性。硬样本是决定性的对比学习结果。在对比学习中，舍弃轮廓补丁也消除了大部分的硬样本。简而言之，我们面临着这样一个困境: 现有的对比学习范式与非互斥的轮廓补丁不兼容，但没有轮廓补丁的学习导致显著的性能差距，而没有对比范式的学习导致模型泛化和评估问题。因此，一个遵循对比学习范式并应对非互斥性的全新学习框架是将IML模型从这一困境中拯救出来的关键。

因此，我们提出了非互斥对比学习(NCL)框架。每个轮廓补丁都是部分篡改和部分真实的。因此，在对比学习中，如果只计算轮廓块被篡改的部分，我们可以认为轮廓块是硬正的。同样，如果只计算其真实部分，则此轮廓补丁可以同时视为硬负。也就是说，轮廓补丁可以根据其部分信息转换为硬正或硬负。根据这一角色转换特性，我们在主干的浅层构造了一个具有双分支的支点结构，从而从轮廓块中相应地挤压出正负部分。支点的名称表明它在硬正和硬负的作用之间切换轮廓补丁，以构成对比对。因此，篡改补丁(阳性)，真实补丁(阴性)和轮廓补丁之间的三边，非互斥的对比被分解成三个二进制，互斥的，对比的对{正，负}，{正，硬负}，{负，硬正}。NCL损失是三个成对对比损失的总和。此外，主结构破坏了轮廓块之间的空间相关性。因此，在解码器方面，我们设计了具有辅助分类器的轴向一致损失，以确保像素级空间关系被编码器的更深层捕获和保留。

我们从头开始训练基于NCL的方法，没有额外的数据集或预训练阶段。与基于预训练的方法相比，我们的模型只使用了总训练数据的5~10%，在所有五个公共IML基准测试中，我们的模型都优于当前基于预训练的方法。尽管如此，深度cnn在如此小的公共基准上容易过度拟合。因此，我们进一步使用非齐次训练和测试数据集来检验模型的泛化能力。结果验证了NCL使IML模型具有更好的定位精度和鲁棒性。最后，与对比学习类似，NCL也具有插件的优点。无论骨干网架构如何，NCL的功能都很好。

总之，我们的主要贡献是:

•没有额外的数据。据我们所知，我们是第一个在IML中引入对比学习来解决训练数据不足和预训练带来的弊端的工作。

•非互斥对比。据我们所知，我们也是第一个通过对比学习来处理不相互排斥的三方关系。我们的非互斥对比学习(NCL)框架可以用于语义分割或细粒度对象检测等其他任务。

•顶级基准性能。我们的方法使用的训练数据更少，质量更差，但在所有五个公共基准上都达到了最先进的性能和最高的模型泛化能力。

•插件优点。我们的方法在CNN和Transformer风格的主干下都起作用。骨干网的选择不会破坏NCL的完整性。

2. Related Work

图像处理定位。先前的IML方法寻求预训练策略、手工伪影特征和自对抗范式来解决数据不足的问题。正如前一节所讨论的，涉及手工特征或预训练机制的方法[29,9,8,36]并不是解决数据不足问题的合适方法。我们在此回顾了其他基于生成对抗网络(GAN)的IML方法。基于gan的解决方案[19,18,39]在没有额外数据集的情况下也能达到最先进的性能。然而，主要的基于gan的方法对操作类型很敏感。[18]仅适用于复制移动图像;[19]仅适用于拼接操作。我们最相关的研究是自对抗GAN[39]。他们还注意到预训练的缺点，并在双注意力GAN中建立了一种自对抗训练策略来精确定位伪造区域。然而，基于gan的方法没有明确地遵循图像处理的线索，即篡改区域与真实区域之间的差异，从而破坏了模型的可解释性。此外，生成的训练样本仍然与真实样本不同，从而影响了模型在真实图像上的性能。我们提出的NCL揭示了篡改导致的本质特征差异，并增加了真实训练样本的数量。

对比学习。对比学习[6]是在自监督和非监督视觉表征领域中出现并快速发展的一种学习方法。传统的对比学习通常应用于问题空间被分割的任务。二元和互斥关系是运用现有对比学习的基本假设。这就是为什么现有的对比IML模型[17,25,32]只对图像进行比较，而不是对图像块进行比较。据我们所知，目前的研究只能处理二元(相似或不相似)对比[14,27]。我们的NCL将对比学习范式扩展到三边集之间的非互斥关系中，从而保留了信息丰富的轮廓块，并在IML任务中获得了超越的性能。

3. Method

3.1. Basic Encoder-Decoder Structure

我们采用DeepLabV3+[4]作为我们IML模型的基本编码器-解码器结构，因为它已经被许多其他IML模型作为基准[13,9]。请注意，基模式的选择或骨干的选择将影响我们的NCL的功效。因此，图2中的编码器骨干是ResNet101[15]块，在最后几个块中进行了亚鲁斯卷积。Atrous空间金字塔池(ASPP)块也同样适用。然后，将大小为(64x64)的编码特征传递给解码器。解码器采用两个上采样模块。编码器输出以4倍的倍数上采样两次。简而言之，我们的基本编码器-解码器应用与DeepLabV3+模型相同的网络结构和训练设置。

3.2. Non-Mutual Exclusive Contrastive Learning 非互斥对比学习

问题公式化。对于传统的对比学习，将问题域定义为全称集U。如图1所示的常规对比学习部分，我们有正集P和负集N，其中:

∅表示正与负的互斥性。将p标记为一个篡改过的图像块，它是P的一个元素。对于∀p∈P，我们进一步表示pj∈P, pj≠ p; ni∈N，则常规对比学习目标为:

f(·)是学习到的图像patch的特征表示。f(pj)和f(ni)是图2中IML特征映射中的红色和蓝色立方体。φ(·，·)表示两个特征向量之间的测量距离，即相似度。符号在本文中是统一的，其中图像patch的集合用大写字母表示，图像patch用小写字母表示，f(·)函数是图像patch学习到的特征表示。

然而，对于图1所示的NCL，我们有:

C是所有轮廓块的集合。C+和C−表示C与正集和负集的交点。这意味着正像素和负像素在轮廓块中混合。对于对比学习，通过在同一集合中找到另一个元素，可以很容易地形成正对。根据(1)和(2)，空交集暗示了如何形成重要的负对。因此，我们首先将(3)修改为与(1)完全相同的格式。用一些小技巧，我们可以有:

然后，根据(1)，我们现在可以将(3)中的非互斥对比转化为(P∩N)、(C+∩N)和(C−∩P)之间的三个二元对比。为了进行三对比较，我们首先需要找出(3)中定义的C+和C -。C+和C -是补丁片段或像素。基本编码器网络不能产生补丁片段的特征。因此，我们设计了主网络，直接使用轮廓补丁作为输入，并生成C+和C -的特征表示。即主网络通过学习(C, C+)和(C, C−)两个映射函数来切换轮廓补丁的作用。自然，主网络应该拥有两个具有相同输入的相似分支。

Pivot Network。主网络。在构建主网络的详细布局之前，我们需要进一步考虑主网络的输入。训练支点网络也需要足够的轮廓补丁。但是，如果我们选择一个小的补丁大小来生成更多的轮廓补丁。小的patch尺寸导致一个图像patch中的像素数量少。然后，C+或C -中的一些元素可能包含少量像素，不适合训练枢轴网络。因此，在单幅图像中，我们将所有轮廓块特征连接到一个完整的嵌入p中，并将p作为枢轴网络的输入，以确保学习结果足够显著以供比较。在图2中，这种拼接将紫色立方体组装成一条大小为(k × C × W × H)的条形图。k = card(C)。C、W、H分别为一个轮廓特征的通道、高度和宽度。card()表示集合C中元素的基数或数量。一方面，当k = card(C)时，我们将轮廓块特征拼接成一个向量(k × C × W × H)。该向量在整个图像中聚集轮廓块特征，以解决当少量轮廓块存在时模型效率低下的问题。另一方面，Pivot网络将这个(k×C×W ×H)向量扁平化为一个固定大小的(1×C×W ×H)向量。这进一步有助于处理特征处理中k的大小变化。

Pivot网络的详细结构在图2 (b)中通过粉色矩形和绿色箭头描述。

然后，我们为我们的枢轴网络设计了两个对称的分支。这些分支共享相同的输入并具有相同的结构。p是(1 × 1)卷积的第一个过程。这个(1 × 1)卷积核将p平坦化为(1 × C×W ×H)的形状。此外，这个(1 × 1)核将p投影到一个潜在的希尔伯特空间H: RC×W ×H，其中f(pj)和f(ni)下陷，特征之间的相似性可以通过ϕ(·，·)统一测量。BN和ReLU分别是批归一化层和ReLU激活层。

枢轴网络在输入集C (c∈C)与输出集C+ (c+∈C+)和C−(c−∈C−)之间构造了反射f(·)。因此，f(·)期望满足:

(1).C+和C−有利于IML的精度;

(2) C+和C−为光滑流形，保证了NCL损耗的反向传播。由于C是光滑流形(有限欧几里得空间)，f(·)应该是双射;

(3).反射后无信息丢失。这意味着我们可以通过某种二进制运算(·)将c+和c−组合回c; c + · c−= c, c + · c = c, c− · c = c。

因此，我们可以得到一个群(G，·)，其中G = C+∪C−。G是 Lie group，因为:

□根据(2)，群逆G→G是光滑的。

□根据（3），群积G × G→G平滑。

因此，主网络的输出(c+和c−)为 Lie group元素。然后，我们将主网络作为光滑映射函数，并从 Lie group中借用了se符号。我们把两个分支的输出写成se+(p)和se - (p)。se+(·)和se−(·)表示Pivot网络学习到的特征变换函数;我们不能保证它们是微分流形。se+(p)和se−(p)是图2 (b)中得到的浅红色和浅蓝色立方体。se+(p)和se−(p)的集合是期望的PI+和PI−。对se+(p)和se−(p)的直观解释是:它们是从Pivot网络生成的特征p中挤出的特殊的正特征和负特征;而共同的正特征和负特征是由骨干网络根据物理存在的图像补丁生成的。从这个角度来看，枢轴网络像钟摆一样在正和负之间摇摆枢轴的作用。

基于H、se+(·)和se−(·)中的f(·)和ϕ(·，·)，我们将NCL学习目标制定为:

Non-Mutually Exclusive Contrast Loss. 非互斥对比度损失。我们确实可以根据(5)构造NCL损失函数。但是，由于pivot网络对每个被操纵的图像产生一个se+(p)和一个se−(p)，因此ϕ(se+(p)， se−(p))独立于求和参数i, j，并且在损失积累过程中成为常数。这样的常数破坏了对比对的多样性。因此，我们对正对的构造进行了少量的替换，进一步将式(5)细化为:

通过我们的支点网络，在(6)中，NCL将三边图像补丁之间的非互斥关系转化为三个互斥的、成对的、由“+”连接的二进制比较。这是由图2中的NCL监督绘制的。为了简化，我们给p赋一个下标，让p = pm; eyx = exp (f (x), f (y)) /τ,e−x = exp (se−(p)、f (x) /)τ,和e + x = exp (se + (p), f (x)) /τ,τ是温度参数。参考式(6)，NCL损失函数为:

最后，我们探索了实施枢纽网络的确切地点。一些先前的工作[3]截断了不同层的深度cnn，并揭示了早期截断的网络为伪造检测提供了更好的特征。此外，早期截断的网络布局浅，接收域小，特征图大，很好地满足了NCL中小补丁大小的要求。然后，我们按照他们的论文[15]将ResNet101划分为卷积块，并探索每个ResNet101块产生的特征映射。正如预期的那样，实验结果验证了第一个块之后的特征映射是最合适的。在实验部分，我们提供了关于NCL图像补丁大小选择的更详细的信息。

3.3. Pivot-consistent Loss

支点网络对连接的轮廓块进行卷积;它破坏了轮廓块内部和之间的空间相关性。[16]表明空间信息在IML中至关重要。因此，我们在解码器侧开发了一个Pivot-Consistent (PC) loss，以确保轮廓patch的空间相关性在pivot网络之后仍然存在。PC loss分配额外的权重µ到轮廓像素基本的逐像素BCE损失来加强轮廓像素之间的空间连接。然而，轮廓像素的数量远远少于被操纵的或真实的像素。为了避免过拟合，如图2 (a)中解码器侧的其他箭头所示，我们使用辅助分类器[7]在每次上采样过程中逐渐累积PC损失。每次上采样后，我们将ground truth缩小到与feature map相同的大小;像素级的IML监督可以通过缩小的伪造mask来实施。这里我们稍微滥用了小写字母的符号。表示t为图像中的像素，t为轮廓像素，µ为额外的权重。γ(·)是一个像素的GT标签，θ(·)是我们的网络对一个像素的预测标签。γ(·)和θ(·)给出二进制值作为输出。那么，我们的PC loss为:

我们发现更大的μ有利于最终的IML精度。µ的评估详见实验部分。

3.4. Total Loss Function

综上所述，IML的NCL的混合总损失为:

ω是浅层编码器层非互斥对比学习的权值参数。更多的ω可以在实验部分找到。

4. Experiments and Discussions

数据集。与现有的基线模型不同，我们提出的NCL仅使用四个基准数据集进行训练和评估。我们的训练过程中不涉及其他数据集。我们在数据集的训练分割上训练我们的NCL模型，然后在相应的测试分割上测试它。为了区别于预训练，我们将只在基准训练分割上进行的训练过程称为基准训练。我们的模型在实验中应用基准训练;除非另有说明。基准训练和评估的五个公共数据集是:(1)CASIA [10];(2) NIST16 [1];(3)Columbia[26];(4)Coverage[30];(5)Defacto[24]。数据集的训练和测试分割遵循[34]中广泛接受的做法。对于Defacto, Defacto- 84k用于训练，Defacto- 12k用于测试。特别是，我们的方法不涉及额外的数据集，所以我们遵循Coverage,的标准分割，其中75个样本用于训练，其余用于测试。

实现细节。如图2 (a)所示，我们遵循DeepLabV3+的标准设置来构建基本的编码器-解码器。我们采用概率为1,12,24和36的ASPP块。outputstride设置为8。解码器以4倍的倍数扩展编码特征，直到达到与输入图像相同的大小。我们还遵循[4]中的训练协议来训练我们提出的模型。具体来说，我们将每个数据集的批处理大小设置为4。裁剪尺寸为512 × 512。我们采用随机梯度下降(SGD)优化器，采用学习率调度“poly”策略(初始学习率0.007，动量0.9，权衰减5e-4)。我们提出的模型是端到端训练，不需要对每个组件进行阶段预训练。此外，我们的总损失是作为一个整体反向传播的。NCL损失的权重(式(9)中的ω)为0.01。PC loss中的权重(式(8)的µ)为0.9。这些参数在评估中仍然是设置的。

评价指标。根据广泛接受的做法，我们采用像素级F1分数和接收者工作特征曲线下面积(AUC)作为我们的评估指标。F1和AUC衡量每个像素的二值分类精度。这两个指标的范围为[0,100]百分比，分数越高表示性能越好。根据我们的观察，由于篡改像素和真实像素的数量极不平衡，F1更能忠实地反映模型的性能。AUC会受到大量真负的影响，优化后的AUC阈值会高估模型的性能。

4.1. Quantitative Analysis on Benchmarks

我们将我们的模型性能与现有的SoTA方法(包括ELA[20]、NOI[23]、CFA[12]、JLSTM[2]、RGB-N[38]、ManTra-Net[34]、SPAN[16]、OSN[31]、ObjectFormer[29]、MVSS[5]和mvss++[9])在五个标准数据集上的性能进行了比较。ELA、NOI和CFA是基于手工特征的传统方法。其余的是端到端模型。F1评分和AUC测量结果分别列于表1。除了我们的模型，所有其他端到端方法都使用大量额外的图像进行预训练，并使用基准训练分割进行微调。

总的来说，与现有方法相比，我们的方法达到了最先进的性能。除了我们的NCL之外，所有其他方法都使用大规模的合成数据集进行预训练，并使用五个基准进行微调。值得注意的是，我们的模型在F1得分上优于其他模型。与AUC相比，F1分数在衡量IML的真实性能方面更可靠。以往的研究统一采用AUC度量的最优阈值，对每个模型和每个测试的AUC阈值进行调整。这种阈值调整在日常场景中是不切实际的，并且通常会高估模型行为。因此，近年来的研究在测量AUC时，都趋向于采用更具说服力的F1评分或固定阈值[9]。

大多数现有的研究都没有公开用固定的AUC来衡量它们的性能。同样，我们不能用预训练数据集重新训练这些模型。在表1中，我们采用最优AUC，但明确显示了我们的F1分数，以充分展示我们的NCL的超越性能。此外，我们可以发现我们的模型F1分数与AUC值之间的差距要小得多。这在某种程度上表明了更高的健壮性。

4.2. Generalizability and Robustness 4.2. 概括性和鲁棒性

当我们进行基准训练和基准测试时，尽管我们取得了最先进的性能，并在70epoch停止了训练，但我们模型的可泛化性尚未得到验证。换句话说，我们需要回答:“NCL是否过拟合这些训练数据?”为了解决这个最重要的模型泛化问题，我们通过在一个数据集上训练我们的模型，然后在另一个非同构数据集上测试它来进行实验。结果如表2所示。我们首先在相对较大的基准CASIAv2和Defacto上训练我们的NCL模型，然后在其他基准上测试训练好的模型。由于MVSSNet使用与预训练数据集相同的数据集，因此我们使用MVSS-Net进行比较。在表2的前四行中，在相同的设置下，我们的NCL在几乎每个数据集中都超过了基于预训练的MVSS-Net，但是NCL不需要对这些数据集进行微调，也不需要额外的辅助手工制作特征。因此，很明显NCL不会过拟合训练数据。然后，为了进一步研究NCL的泛化性，我们使用最小的两个基准Coverage和Columbia进行训练，在更大的基准上测试NCL。表2表明，NCL设法应付这种严酷的情况。此外，我们还将所有的基准训练数据集放在一起，形成一个单一的训练数据集，并在此集上训练NCL，以探测其边缘性能。如表2的最后一行所示，在这个大型数据集上进行训练，NCL在几乎每个现有模型的测试数据集上都获得了超越的性能。然而，与具有基准训练的NCL相比，在Coverage和Columbia数据集上的AUC分数略有降低，而在其他三个数据集上则急剧增加。考虑到Coverage和Columbia的小范围，NCL用敏感性交换了特异性，从而在所有测试用例中实现了更平衡的性能。

然后，我们还进行了鲁棒性检验。通过攻击进行了典型的鲁棒性实验。使用内置函数攻击图像，然后应用IML方法识别被攻击图像上的篡改区域。像素级AUC测量的结果如表3所示。该模型对常见攻击具有较好的鲁棒性。因此，简而言之，我们基于ncl的IML方法保持了令人满意的泛化性，并且具有鲁棒性和抗攻击性。

4.3. Qualitative Analysis

每个组成部分的贡献。在进一步讨论之前，我们首先澄清基于ncl的方法的每个组件带来的确切改进。我们的方法建立在DeepLabV3+的基本编码器-解码器上，称为Base模型。然后，我们提出了支点结构来进行非互斥的对比学习;我们称之为Base+Pivot模型。此外，我们使用PC损失以形成整个NCL框架;在本节中，我们将整个NCL称为Base+Pivot+PC模型。

定性分析。我们首先在图3和图4中对NCL的不同成分进行纵向定性比较。图3中的第二到第四行是Base模型、Base+Pivot模型、Base+Pivot+PC模型对输入图像的结果。图3最左边的两列生动地展示了我们方法中每个组件的功效。Base模型在这些情况下完全失败，但Base+Pivot+PC逐渐抓住了操纵的线索。最右边的一列和甜椒图片展示了通过PC损失来精炼大致局部伪影的精细轮廓的实例。如图4所示，在其他基准测试中也存在类似的情况。

然后，我们在图3的下半部分对不同的IML模型进行横向定性比较。MVSS-Net和Mantra-Net行显示了广泛比较的MVSS-Net和Mantra-Net的相应输出。在训练数据少得多、质量差得多的情况下，我们的模型优于这些预训练依赖模型和需要大量数据的模型。

定量分析。对于我们模型的不同变体，像素级AUC测量的预测结果如表5所示。我们的NCL对基本的编码器-解码器网络有显著的提升，特别是在模型泛化方面。对于在NIST16或Defacto数据集上进行基础模型训练，但在其他数据集上进行测试，它无法在其他数据集上进行泛化。将Pivot网络添加到基本模型中大大提高了模型的泛化性。在不同的非同构数据集上测试时，Base+Pivot获得了不错的AUC结果。PC loss也被证实是提高性能的有效方法。我们会在补充材料中提供更详细的信息。在量化了每个分量的贡献后，我们进一步探讨了参数在我们模型中的影响。我们有两个参数，图像补丁大小和权重参数对总损失的影响。

图像补丁大小。不同的编码器层产生不同大小的特征，这对NCL的性能至关重要。为了找到最佳的patch大小，我们还尝试在ResNet101的不同块之后添加Pivot网络。具体来说，我们将原ResNet101与原论文[15]一样划分为5个阶段，并在每个阶段的末尾附加Pivot网络。如表6所示，较早的层表现明显优于较深的层，这也印证了[3]的观察结果。这一发现在各种基准测试中都是一致的。

权重参数。我们探索了不同的权重分配，以最大化F1分数和AUC。在这种情况下，我们找到分配方案，并采用实现细节中所述的这些参数。较低的ω和较高的µ有利于F1和AUC的IML精度。权重效应在数据集之间是相似的。因此，我们的权重选择是一致的。

基础架构。随着基于transformer的图像主干的快速发展，我们将真正采用基于自关注机制的IML主干。与cnn一样，ViT[11]也是逐块处理图像。因此，我们的NCL的初始假设成立。无论ViT中的修补方法是什么，图像的补丁仍然会被分为三类:篡改补丁、真实补丁和轮廓补丁。然后，我们的NCL可以快速适应基于vit的骨干网，从而提高基础模型的性能。如表4所示，我们使用ObjectFormer主干进行了一些初步测试[29]，结果符合我们的预期。

5. Conclusion

本文提出了一种新的非互斥对比学习(NCL)范式来定位图像操作，而无需额外的预训练数据集。我们基于NCL的IML模型在所有五个基准测试中都达到了最先进的性能、顶级模型泛化和鲁棒性，这表明我们的NCL更适用于现实生活场景。在更大程度上，NCL提供了一种全新的自监督范式来处理具有三分问题空间(如语义分割)的任务。