TruFor: Leveraging all-round clues for trustworthy image forgery detection and localization

最新推荐文章于 2025-01-04 01:00:00 发布

吼吼吼哈哈哈诶诶诶

最新推荐文章于 2025-01-04 01:00:00 发布

阅读量2.9k

点赞数 5

文章标签：计算机视觉图像处理深度学习

本文链接：https://blog.csdn.net/weixin_43780665/article/details/131519010

版权

paper：https://arxiv.org/pdf/2212.10957.pdf

code：https://grip-unina.github.io/TruFor/

Abstract

在本文中，我们提出了TruFor，这是一个可以应用于各种图像处理方法的法医框架，从经典的廉价伪造到最近基于深度学习的操作。我们通过结合RGB图像和学习噪声敏感指纹的基于transformer的融合架构来提取高级和低级痕迹。后者学习嵌入与相机内部和外部处理相关的工件，仅以自我监督的方式对真实数据进行训练。伪造被检测为偏离预期的规则模式，特征的每个原始图像。寻找异常使该方法能够鲁棒地检测各种局部操作，确保泛化。除了像素级定位图和整个图像完整性评分外，我们的方法还输出一个可靠性图，突出显示定位预测可能容易出错的区域。这在法医应用中尤其重要，以减少误报并允许大规模分析。在多个数据集上进行的大量实验表明，我们的方法能够可靠地检测和定位廉价伪造和深度伪造操作，优于最先进的工作。代码可在https://grip-unina.github.io/TruFor/上公开获取。

1. Introduction

随着新的强大的编辑工具的出现，操作图像从未如此容易。这些新的机会激发了善意和恶意用户的创造力。以前，制作一场多媒体虚假信息活动需要复杂的技能，攻击者所能做的不过是复制、复制或删除图像中的物体，这是图像操作的经典形式，也被称为“廉价伪造”。随着深度学习的爆炸式增长，图像处理工具变得更容易使用和更强大，允许用户生成不存在的人物的动态图像或实现可信的深度伪造。扩散模型能够使用自然语言提示创建逼真的图像编辑，逼真地适应插入的操作以适应上下文的风格和照明[1,35]。

这些工具落入坏人之手所带来的风险是显而易见的。事实上，近年来，政府和资助机构对开发能够抵御此类攻击的取证工具越来越感兴趣。主要关注的是局部图像编辑，特别是改变图像语义的部分修改(例如图1中部分处理的图像，其中两个真实的人脸被替换为生成的人脸[28])。为了应对这些挑战，多媒体取证和相关科学领域的活动迅速增加，提出了大量用于图像伪造检测和定位的方法和工具。尽管在该领域取得了相当大的进步，但目前的SOTA探测器的性能还不足以用于野外部署，主要原因是在几个需要深入研究的领域存在缺陷:1)有限的泛化;Ii)有限的稳健性;Iii)检测性能不足。

有限泛化是指检测器无法处理分布外操作。一些检测器是为了利用定义良好的低级特征而构建的，例如，JPEG压缩、去马赛克或插值的痕迹[2,6,37]，而另一些检测器通常只针对特定类型的操作而开发，如拼接[27,40]。此外，在现实场景中，图像也会经历多种形式的非恶意退化（例如:重新压缩，调整大小等)-也称为清洗。例如，社交网络压缩和调整上传的图像大小，这两种方法都可以很容易地消除法医痕迹。最后，大多数SOTA方法执行图像伪造定位，将检测作为事后考虑[11]，这通常是从定位热图本身导出的全局完整性评分[23,39,46]。很少有方法直接解决检测任务[8,33,42,50]。因此，检测精度差，虚警率高。在很少操作图像的现实环境中，这种性能可能导致比它解决的问题更多的问题，假阳性的数量大大超过真阳性。

这项工作解决了这些缺点，重点是在各种操作下的鲁棒检测。我们的目标是首先确定被分析的图像是否被操作，然后仅对检测到伪造的图像考虑伪造定位。为了在现实世界的场景中执行，图像经历了许多可能会减弱取证痕迹的后处理步骤，我们的设计是基于即使在复杂的场景中也需要在多个尺度(包括低级和高级特征)上利用信息的需求。我们的框架估计了一个置信度图，该置信度图将定位结果与特定区域的不确定性联系起来，允许许多潜在的假警报被拒绝。我们的方法框图如图1所示。总的来说，在这项工作中，我们做出了以下关键贡献:•我们提出了一个新的框架TruFor，它输出一个全局完整性评分、一个基于异常的定位图和一个相关的置信度图;•提出了一种新的噪声敏感指纹Noiseprint++，增强了对图像清洗的鲁棒性;•结合低级和高级证据进行异常分析，结合置信度分析提供更可靠的决策;•我们在几个基准上进行了广泛的实验，考虑到新的和具有挑战性的场景，并证明我们的方法在检测和定位任务中都达到了最先进的性能。

2. Related Work

Forensic artifacts：低级伪像是由相机内采集过程引起的，例如传感器、镜头、彩色滤波器阵列或JPEG量化表。在所有情况下，这些都是非常微弱的痕迹，可以通过高通滤波器或去噪来抑制图像内容来突出显示。用于该任务的最常见过滤器是空间丰富模型(SRM)[17]，通常作为预处理步骤包含在一些CNN模型中用于法医分析。在[38]中使用了一组大约30个固定的高通滤波器，而在[3]中，高通滤波器是在训练过程中学习的。这些固定和可训练的滤波器已在许多其他后续工作中用于执行噪声敏感分析[8,22,46,48,51]。在[12]中考虑了一个不同的角度，其中通过学习一种“相机模型指纹”来提取低级伪影，即带有相机内处理步骤痕迹的噪声指纹。当操作存在时，noiseprint 结构不存在，这种异常被解释为伪造。在这项工作中，我们利用 noiseprint 并进一步增强它，使其在更具挑战性的场景中工作。

一般来说，将低级特征与高级特征结合起来进行更有效的检测。该领域的开创性工作是[51]中提出的两分支方法，其中通过双线性池化将噪声和RGB流的特征结合在一起。其他研究也提出了晚期融合[8]，而其他研究[22、42、46]提出了早期融合甚至中期融合[26]。我们属于最后一类，但使用的方法是使用跨模态特征校准融合噪声和RGB通道[30]。

Forgery detection vs localization：大多数最先进的方法都专注于图像定位，其架构通常受到语义分割的启发，而检测是这种分析的副产品[11]。完整性分数是通过对定位热图进行适当的后处理来计算的，目的是提取全局决策统计量，例如热图的平均值或最大值[5,23,46]。只有少数工作明确地处理了检测问题。特别是，最近的一些方法[8,31,42,50]通过在图像级上适当的损失来联合训练模型进行定位和检测。在[42,50]中，对中间特征进行了全局平均池化，而在[8]中，对局部化热图进行了最大平均池化。在[33]中可以找到一个不同的视角，其中提出通过梯度检查点技术来分析整个图像，避免调整大小(以免丢失宝贵的取证痕迹)，这有助于块级特征提取和图像级决策的联合优化。

与现有文献不同的是，本文明确设计了一个以异常图和置信度图为输入的伪造检测模块。这种额外的输入对于减少原始数据的错误警报数量和提供更值得信赖的工具至关重要。

Reliability in multimedia forensics ：设计可靠的检测器在几个计算机视觉应用中是很重要的，然而，它对我们的任务更为关键，因为法医痕迹通常是视觉检查无法察觉的。当使用基于深度学习的方法时，这个问题甚至更加相关，因为图像取证工具受到分布外数据的挑战[41]。在JPEG工件和重采样分析的背景下，开发可靠取证检测器的初步努力在[4,32]中进行，其中提出使用贝叶斯神经网络，该网络为每次预测提供不确定性范围。这样，用户就可以量化对最终预测的信任。

受[9]的启发，我们的工作旨在朝这个方向更进一步，提出了一种利用外部不确定性量化[19]的方法，从异常定位热图中设计置信度图。

3. Method

在本节中，我们首先介绍TruFor的概述，如图2所示。后面的小节将提供每个组件的详细信息。首先，从输入的RGB图像x中提取其Noiseprint++， r = R(x)，这是一个与x分辨率相同的学习噪声敏感特征。然后，x和r分别馈送两个网络，分别提取图像的异常图a和置信图c。这些网络具有相同的编码器-解码器架构，共享编码器提取合适的密集特征，f = E(x, r)，由异常解码器处理以提取异常图，a = DA(f)，由置信解码器提取置信图，c = DC(f)。通过加权池化块将异常图中收集到的信息汇总为紧凑描述符h = P(a, c)，权重取决于置信度信息。最后，这个描述符由一个分类器处理，该分类器计算一个完整性分数y = C(h)。

完整性评分、异常图和置信度图都提供给最终用户进行进一步分析。在第一级，执行自动伪造检测只需要完整性评分。如果检测到伪造，用户可以使用异常图更深入地识别被操作的可疑区域，以及置信度图来区分伪造区域的有效预测和随机异常。相反，对于原始图像，异常图不能定位可能的伪造，而只能定位随机的统计异常，应该丢弃。

3.1. Noiseprint++

Motivation：数字图像的特征是一长串微妙的、看不见的痕迹。这些问题可能有许多不同的根源，从相机硬件不可避免的缺陷，到相机内图像采集的处理步骤，再到图像在其生命周期中遇到的所有相机外处理。当图像被篡改时，这些痕迹可能会被破坏，如果检测到这一事件，就可以进行强大的法医分析。

在[12]中，提出了一种基于深度学习的方法来从每张图像中提取其noiseprint，noiseprint是一种图像大小的模式，其中收集并强调与相机内处理步骤相关的所有痕迹。这是以一种自我监督的方式训练的，只使用原始图像。虽然这确保了它可以在一个大的语料库上训练，但它对相机外过程引起的图像损害的鲁棒性有限。考虑到在图像的生命周期中可能存在多种形式的损害，这是一个明显的缺点。为了克服这一限制，我们提出了Noiseprint++，这是一种改进的图像指纹，它不仅突出了与相机内处理有关的痕迹，而且还突出了与相机外处理有关的痕迹。换句话说，Noiseprint++不仅可以捕获相机型号的信息，还可以捕获其编辑历史的信息，从而提高了其可靠性。

Self-supervised contrastive learning：提出的Noiseprint++提取器通过对比学习的方式学习补丁级自相似性。与[12]类似，我们采用DnCNN架构[49]，有15个可训练层，3个输入通道，1个输出通道。提取器在从数据集的图像中随机提取的64×64像素块上进行训练。训练的目的是对具有相同属性的小块获得相同的噪声敏感指纹，对某些方面不同的小块获得不同的噪声残差。图3特别强调，当两个块(i)来自不同的来源时，它们被认为是不同的，因此具有不同的噪声残差;(ii)从不同的空间位置绘制;(iii)有不同的编辑历史。反过来，这些约束旨在区分(i)由不同相机生成的补丁，(ii)从一个空间位置移动到另一个空间位置，以及(iii)来自经过不同后处理的图像。特别是后一个属性，将Noiseprint++与它的祖先区分开来，并提高了它的有效性。我们采用了InfoNCE对比损失[24]:

式中，B为一批patch，s(i, j)为第i个和第j个残差补丁之间的欧氏距离的平方，Ni为与第i个补丁具有相同起源、位置和编辑历史的补丁的子集。在对比学习中，我们引入了大量可能的编辑操作，如调整大小，压缩和照明的变化，共计512个不同的历史管道。

在图4中，我们展示了两个与noiseprint和一些标准空间域残差(SRM滤波器)相比的Noiseprint++示例，而在图5中，我们展示了一个被操作的图像，我们可以注意到与伪造区域对应的JPEG网格错位。

3.2. Anomaly localization map

我们将伪造定位任务视为一个监督二值分割问题，并将Noiseprint++信息与RGB图像的高级特征相结合。为此，我们采用了CMX架构[30]，这是一种跨模态融合框架，最初是为多模态语义分割设计的，但很容易推广到其他任务。采用语义分割的方法，在具有共享编码器结构的两个并行分支上提取输入图像和Noiseprint++的特征。特别是，我们依赖于SegFormer[47]，这是一种基于Transformer编码器的分层网络。每个阶段之间使用跨模态特征校正模块进行交互，该模块使用从另一个模态提取的特征来校准来自一个模态的信息。校准有助于利用另一模态的知识过滤掉一模态的噪声信息。两种模式的校正特征作为输入提供给特征融合模块，该模块使用交叉注意机制将它们合并成单个特征映射。所有阶段的融合特征图代表解码器的输入，解码器用于生成最终的异常图。对于解码器，我们保留了SegFormer[47]中使用的轻量级多层感知器。详情载于补充文件。

在第二阶段的训练中，损失函数是加权交叉熵和dice损失的组合[34]:

λce实验设定为0.3。加权交叉熵损失定义为

其中gi和ai分别为GT和预测异常图的第i个像素，N为图像中的像素数。权重γ0和γ1被设置为0.5和2.5，以考虑到训练集中原始像素和假像素之间的不平衡。

3.3. Confidence map and integrity score

许多SoTA方法首先执行定位，然后使用定位图的一些全局统计信息来执行检测。我们还需要关于异常的全球统计数据，但是异常图不能盲目地信任，因为它突出了具有异常统计数据的被操作区域和原始区域。因此，我们提出了一种计算预测异常图的逐像素置信度估计的方法，该方法用于计算用于检测的鲁棒全局统计量。在池化块中，我们计算了异常图的四种加权统计量，即最大值、最小值、平均值和均方，其中权重来自置信度图，有助于弱化图像的原始异常区域。在公式

其中ai和ci分别为像素i处的异常图和置信图的值，后者归一化为单位和，我们采用最小和最大函数的平滑逼近。对于这些特征，我们将从置信度图Cavg, Cmsq, Cmax, Cmin中提取的四个相应特征相加，最终得到一个8分量的特征向量h，用于预测完整性评分y。

通过使用两个具有相同架构的解码器解码相同的输入特征，如[9]中所做的那样，并行生成置信度和异常图。然而，当异常值指出统计异常值时，置信度值必须识别哪些异常值是可信的。因此，必须用适当的临时参考数据训练置信度解码器。为此，我们使用另一个映射t，即真类概率映射[9]:

其中gi和ai分别为GT和异常图像素值。gi对于处理过的像素为1，对于原始像素为0。因此，当处理像素出现较大异常值或原始像素出现较小异常值时，真实类概率图接近于1。相反，当被操作的像素不被视为异常或在原始数据中检测到异常时，它接近于0。后一种情况尤其重要，因为它很容易导致误报。置信度解码器必须学会识别和丢弃这些错误的信息。因此，置信损失Lconf定义为预测置信图c与其参考图t之间的均方误差。

最后，为了使系统可靠性最大化，将置信度解码器与最终的二值分类器联合训练。因此，我们使用置信度损失和检测损失的加权和来训练这个阶段

其中Ldet为预测图像级完整性分数y上的平衡交叉熵，λdet设为0.5。

4. Results

4.1. Experimental Setup

Training：我们的方法包括三个独立的训练步骤。首先，我们使用两个流行的照片分享网站:Flickr (www.flickr.com)和DPReview (www.dpreview.com)公开提供的原始图像的大型数据集来训练Noiseprint++提取器。整个数据集包含从43个品牌的1,475种不同相机型号(每种型号8到92张)中获取的24,757张图像。然后，我们使用CAT-Net v2[26]中提出的相同数据集训练异常定位网络的编码器和解码器，包括原始图像和假图像以及相应的ground truth。最后，使用相同的数据集，我们训练置信图解码器和伪造检测器。关于这些数据集的更多细节可以在附录中找到。

Testing：我们在七个公开可用的数据集和一个由我们使用扩散模型创建的本地操作数据集上对我们的模型进行了基准测试。更具体地说,我们使用文献中广泛使用的CASIA v1[16]、Coverage[44]、Columbia[21]、NIST16[20]、DSO-1[14]和VIPP[7]，包括廉价的操作，如拼接、复制移动和inpainting。总的来说，这些数据集包括1530张假图像和1412张真实图像。然后，我们添加了OpenForensics[28]和CocoGlide，其中包括我们使用GLIDE扩散模型[35]从COCO 2017验证集[29]生成的512张图像。OpenForensics是一个使用GAN模型生成的人脸操作大型数据集，我们从中采样了2000张图像。

Metrics：与之前的大多数工作一样，我们根据F1测量像素级性能，并使用最佳阈值和默认的0.5阈值报告结果。相反，对于图像级分析，我们使用AUC，它不需要设置决策阈值，以及平衡精度，它考虑了假警报和未检测，在这种情况下，阈值再次设置为0.5。

4.2. State-of-the-art comparison

为了确保公平的比较，我们只考虑带有代码和/或在线公开的预训练模型的方法，并在选定的测试数据集中运行它们。此外，为了避免偏差，我们只包括在与测试数据集不相交的数据集上训练的方法。最终，我们包括了两种基于模型的方法:ADQ[6]依赖于JPEG伪像，Splicebuster[10]利用噪声伪像;以及11种基于深度学习的方法:EXIF SelfConsistency[23]、Constrained R-CNN[48]、RRU-Net[5]、ManTraNet[46]、SPAN[22]、AdaCFA[2]、E2E[33]、CAT-Net v2[26]、IF-OSN[45]、MVSS[8]、PSCC-Net[31]、Noiseprint[12]。表3提供了这些方法的简要总结。

Localization results：在表1中，我们显示了像素级的定位性能。我们的方法提供了最好的F1性能，平均而言，在所有数据集上都是最好或第二好的，这证明了跨操作的卓越泛化能力。事实上，它在OpenForensics(基于gan的局部操作)上也表现良好，而除了CAT-Net v2和CocoGlide(基于扩散的局部操作)之外，大多数其他方法都失败了。由于使用了Noiseprint++及其基于数字历史的训练，我们的方法在所有数据集上都能很好地工作。

Detection results：检测结果如表2所示。请注意，我们还考虑了没有明确为该任务设计的方法，在这种情况下，我们使用定位图的最大值作为检测统计量，因为它比平均值更好。TruFor在大多数数据集上表现最好，并且在AUC和准确率方面都具有最佳的平均性能。相反，许多方法表现出非常差的性能，接近随机猜测(0.5)。这种现象在准确性方面尤为突出，因为它对阈值的选择非常敏感(见补充)。确实，由于缺乏合适的校准数据集，设置正确的阈值是一个难题，如[15]所示。与大多数竞争对手不同，即使在这种具有挑战性的情况下，我们的方法也保证了近80%的准确性。

Robustness analysis：在本节中，我们对压缩和调整大小受损的图像进行鲁棒性分析。为此，我们使用了三个上传到Facebook和Whatsapp上的数据集，其中两个在[45]和我们的CocoGlide中提供。为了紧凑性，在表4中，我们仅根据表1的F1性能(固定阈值)与前三名竞争对手进行比较:IF-OSN, CAT-Net v2和MVSS-Net。TruFor的性能始终优于所有竞争对手，尽管IF-OSN被专门提出用于处理通过社交网络传输的图像，但TruFor与CAT-Net v2和MVSS-Net之间的差距明显扩大。

Qualitative comparisons：在图6中，我们还展示了一些可视化结果，以便更好地了解图像定位图和相应置信度图的质量。与一些假图像一起，我们展示了一些定位图可能是错误的真实的图像。在这些情况下，我们会显示异常图，其中通常会显示一些可能导致误报的热点。由于附加的置信度图，在检测中避免了此类错误。用户可以检查所有这些信息片段以进行进一步分析。更多的定性结果显示在补充部分。

4.3. Ablation study

为了评估我们方法中所有设计选择的个体影响，我们考虑了一个简单的基线，即[12]中提出的基于noiseprint 的方法，并一次添加一个新的关键组件。通过从网络上下载原始图像并在本地进行编辑，建立了1000张操作图像的数据集，以模拟真实的场景。表5显示了noiseprint基线、Noiseprint++版本、基于transformer的分割方法(仅使用RGB和仅使用NP++作为输入)以及将Noiseprint++和RGB图像联合分析的方法的结果(F1和AUC)。我们还在调整所有图像的大小并调整和压缩它们之后执行此分析。对于图像严重受损的情况，该方法具有更大的挑战性，但仍能提供良好的性能。总的来说，包含高级分割信息似乎提供了最大的改进，证明我们关注全方位线索是合理的。

通过表6，我们研究了单独使用交叉熵损失或与dice损失联合使用的效果，以及是否使用压缩和调整大小的图像进行在线增强。在原始数据上，结果(具有最佳阈值的F1)在所有情况下都保持相当稳定。相反，对于调整大小和压缩的数据，交叉熵和dice损失的联合使用被证明是重要的，特别是与增强一起使用。

最后，在表7中，我们考虑了图像级检测，并将我们的方法与依赖于单个全局特征、异常图的平均值或最大值的两个简化版本进行了比较。首先，很明显，均值是一个糟糕的决策统计量，只要切换到最大值，就可以获得更好的AUC结果。然而，如果没有一个校准过程来帮助选择一个好的决策阈值，即使是最大值也几乎是无用的。因此，就精度而言，本文方法中使用的特征向量具有很大的竞争优势。

5. Conclusions

本文介绍了一种可靠的图像伪造检测和定位框架TruFor。它是建立在提取学习噪声敏感指纹的基础上的，即使在具有挑战性的情况下，比如在社交网络上流通，它也能增强相机内和相机外的工件。该模型还提供了一个置信度图，表示在原始区域可能出现的错误警报。我们的大量实验结果表明，我们的方法具有良好的泛化性，并且能够定位甚至未知的操作，例如最近基于DNN的操作。此外，由于引入了置信度图，可以在图像级提供可靠和鲁棒的检测结果。我们的方法有一定的局限性。首先，它不能检测完全生成的图像。然后，我们在不同的阶段训练异常图和检测分数，需要全像素级的监督。在未来的工作中，我们希望探索端到端训练，允许仅从图像级标签进行部分监督。我们还想评估定位编辑的最新生成模型的泛化[1,18]。

Supplementary Document

在本附录中，我们详细介绍了我们的方法(章节A)和实验中使用的数据集(章节b)。然后，我们加入了额外的结果来证明我们的方法的鲁棒性(章节C)以及它为检测任务(章节D)提供良好结果的能力。此外，我们通过定位和置信度图展示了定性结果，最后我们展示了失败案例(章节E)。代码可在https: //grip-unina.github.io/TruFor/公开获得。

A. Implementation details

Architecture：异常定位网络如图8所示。编码器中的特征提取骨干基于基于transformer的分割架构[47]。RGB和Noiseprint++特征映射使用跨模态特征校正模块(CM-FRM)进行组合[30]。每个特征提取分支有4个Transformer块，每个Transformer块之间有一个CM-FRM块。Transformer块基于用于语义分割的Mix Transformer编码器B2 (MiT-B2)，并在ImageNet上进行预训练，如[47]所示。Mix Transformer编码器包括自注意机制和通道操作。它依赖于空间卷积而不是位置编码。这对于处理任何大小的图像以及获得与输入图像具有相同分辨率的定位图都很重要。

CM-FRM块利用图像语义(RGB)和残差(Noiseprint++)特征之间的相互作用。它执行通道和空间校正，由两个分支的特征映射的加权和组成。权重分别沿通道维度和空间维度计算，结合两个特征映射。特征融合模块(Feature Fusion Module, FFM)采用一种高效的交叉注意机制，无需位置编码，将Noiseprint++和RGB图像的特征映射合并，四个FFM的输出代表解码器的输入。我们使用了[47]中提出的All-MLP解码器，这是一个仅由1×1卷积层和双线性上采样器组成的轻量级架构。置信度图的解码器具有相同的All-MLP架构。伪造检测网络以异常图和置信图的池化特征为输入，由2个完全连接的层组成，具有RELU激活:8D→128D→1D输出。

实验使用了一个NVIDIA RTX A6000 GPU。每个阶段的训练时间分别为6.5天、6天、2天。对于320万像素的图像，推理时间约为1.17秒。在模型尺寸上，TruFor的参数个数为68.7M，比前三名竞争对手使用的参数少:CAT-Net v2 (114.3M)， MVSS-Net (146.9M)和IF-OSN (128.8M)。

Noiseprint++ training：对于Noiseprint++训练，每个批次包括160个64 × 64像素的补丁。这些补丁来自5个相机型号，每个相机型号有4个不同的图像。由此产生的20幅图像受到4种不同的编辑历史，这是随机调整大小，压缩和对比度/亮度调整的组合，共计512可能的编辑历史。训练共进行50个epoch，每个epoch包含8800个训练步骤。使用Adam优化器，初始学习率为0.001，每10个epoch减少10倍。

Localization and detection training：对于定位和检测任务，我们采用了[26]中用于训练和验证的数据集，其中包括原始图像和假图像以及相应的参考图。在训练过程中，输入图像被裁剪为512 × 512。数据集的详细信息如表8所示。为了避免由于训练数据集大小的不平衡而产生的偏差，我们在每个训练epoch对每个数据集进行平等采样。网络训练100次，批大小为18，学习率从0.005开始，逐渐衰减到零。SGD优化器的动量为0.9。在Noiseprint++提取之前，我们对RGB输入应用以下增强:在[0.5 - 1.5]范围内调整大小和JPEG压缩，质量因子从30到100。

B. Datasets

为了确保Noiseprint++在未改变的图像上进行训练，我们验证了对于每个相机模型，所有收集的图像具有相同的分辨率，是具有相同量化矩阵的JPEG格式，并且元数据中没有照片编辑软件(例如photoshop, gimp)。

对于异常定位和检测，用于训练和测试的数据集如表8所示。训练包括CASIA v2[16]、FantasticReality[25]、IMD2020[36]，以及使用COCO[29]训练集或RAISE[13]作为源，以COCO[13]的对象掩模作为目标区域，通过应用拼接和复制移动创建的操作图像数据集[26]。对于OpenForensics[28]和NIST16[20]，我们分别在2000张图像(19,000张)和160张图像的测试子集上评估了性能。后一种选择遵循了最近大多数作品所采用的常见训练/测试分割[22,42,48,51]。CocoGlide是我们使用COCO验证数据集生成的一个操纵数据集[29]。我们提取256 × 256像素的作物，然后使用对象蒙版及其相应的标签作为伪造区域和文本提示符，并将其提供给GLIDE[35]。通过这种方式，我们为总共512张被处理过的图像生成了相同类别的新合成对象。一些例子如图7所示。注意，我们避免了与[26]的重叠，因为CocoGlide是基于来自验证集的图像，而篡改的COCO数据集来自训练集。

C. Additional robustness analysis

在本节中，我们将包括额外的实验，以显示我们的方法对不同形式的退化具有鲁棒性的能力，并将其与SOTA获得的结果进行比较[8,26,45]。我们在CASIA v1数据集上应用以下转换:高斯模糊(改变核大小)，高斯噪声(改变标准差)，伽马校正(改变功率因数)和JPEG压缩(改变质量水平)。结果如图9所示。我们可以观察到，无论退化类型如何，我们的方法都比最先进的方法更健壮。

我们还检查了对其他社交媒体网络的鲁棒性，超出了主要论文中已经考虑的那些，即Facebook和Whatsapp(主论文表4)。更具体地说，我们使用了[45]中提出的整个数据集，其中来自一些标准法医数据集CA SIA v11[16]、Columbia[21]、DSO-1[14]和NIST16[20]的图像也被上传到微博和微信上。结果如表9所示，在所有不同的数据集和社交平台上都显示出一致的增益，除了Columbia，其中CAT-Net v2实现了更好的性能。然而，相对于Facebook、Whatsapp、微博和微信的第二名，我们的平均涨幅分别约为16%、19%、18%和18%。

Comparison with ObjectFormer：请注意，与[42]进行详尽和公平的比较是不可行的，因为他们没有提供经过训练的模型。我们使用本文[31,42]的值在表10中提供了定位性能的像素级比较。我们的方法在各种测试数据集上具有竞争力或优于[42]，并且平均优于[42]。

D. Additional detection results

在本节中，我们对我们的方法的图像级检测性能给出了更多的见解。我们首先研究了置信度图在检测策略中的作用。在表11中，我们进行了消融，在AUC和精度方面，我们观察到置信图有了实质性的改善。

图像级度量需要校准特定数据集的检测分数(或者某些方法对特定数据集进行微调[42])。在主论文的表2中，我们报告了在七个数据集上评估的平衡精度，以及考虑固定阈值等于0.5的平均值。对于不提供显式检测分数的方法，我们在定位地图上使用最大池。

在图10中，我们显示了准确度(在七个数据集上的平均值)作为阈值的函数。我们可以观察到，依赖于最大池化的其他方法的准确性随着阈值的增加而增加——这表明这些方法的定位图中有许多误报。相比之下，我们的方法结合了各种置信度加权池化统计，使其更健壮。

表12显示了考虑固定阈值0.5和每种技术的最佳阈值的真阴性率(TNR)、真阳性率(TPR)和平均准确率。我们可以注意到，在我们的方法中使用固定的阈值，我们可以显著降低误报率(降低约80%)，而代价是增加误检率(提高约30%)，实现25%的准确率平均提高。所有最先进的方法都存在大量假警报的问题，最佳阈值假设值几乎等于1。同样，在这个实验中，所有七个数据集的结果都是平均的，我们可以理解在检测过程中包含置信度分析的重要性。

E. Qualitative results

在图11中，我们展示了假图像和原始图像的一些结果，以及相对置信度图和最终完整性评分。我们可以看到，置信度图可以帮助纠正误报预测，并提供更可靠的完整性评分。相反，在图12不同的失效案例中。在第一行中，操作被正确地定位，然而，置信度图错误地暗示它可能是一个假警报。一种可能的解释是，该区域非常均匀，这可能导致误报。第二行中也出现了类似的情况，因为植物具有非常均匀和深色的纹理，这会误导置信度提取器。另一种失败的情况可以用另一种方式来表示，即我们在原始图像上有一个假阳性，而置信度图没有纠正它。

在图13中，我们展示了一些对操作图像的定性结果(伪造区域用黄色标出)，并与最先进的技术进行了比较。对于这些例子，局部区域比其他方法更清晰，更准确。我们还添加了置信度图，它可以告诉我们异常图的可靠性级别，并消除潜在的假警报。请注意真实伪造边界上的暗区域-表明中间区域异常标签分配的置信度较低。

最后，在图14中，我们展示了一些原始图像上的假警报示例。其他方法倾向于关注语义相关或高度饱和的区域，从而导致错误的检测。TruFor的定位地图表现出较弱的响应，并且由于置信度地图，这些地图中的大多数被丢弃，从而导致正确的图像级决策。