code:
Abstract
数字图像真实性促进了图像伪造定位的研究。尽管基于深度学习的方法取得了显著的进步,但大多数方法通常存在伪造区域和真实区域之间严重的特征耦合。在这项工作中,我们提出了一种两步边缘感知区域消息传递控制策略来解决上述问题。具体来说,第一步是考虑充分利用边缘信息。它包括两个核心设计:上下文增强的图构造和阈值自适应可微二值化边缘算法。前者集合全局语义信息来区分伪造区域和真实区域的特征,后者站在前者的输出上提供可学习的边缘。第二步,在可学习边缘的指导下,设计区域消息传递控制器来减弱伪造区域和真实区域之间的消息传递。通过这种方式,我们的ERMPC能够显式地对伪造区域和真实区域之间的不一致性进行建模,并使其能够在经过改进的伪造图像上表现良好。在几个具有挑战性的基准测试中进行的大量实验表明,我们的方法在定性和定量上优于最先进的图像伪造定位方法。
1. Introduction
伪造或篡改的图像在各个领域都存在风险,比如移除版权水印,产生假新闻,甚至在法庭上伪造证据[32]。伪造技术的发展将造成信任危机,影响社会公平。因此,图像伪造的检测具有十分重要的意义。检测的关键是对伪造区域和真实区域之间的不一致性进行建模,并在可疑图像上定位伪造区域,即图像伪造定位(IFL)。然而,随着GAN[16,26,63]、VAE[27,44]和同质处理[7,33]等后处理技术的广泛使用,图像很容易以视觉上难以察觉的方式被篡改。这些技术不断地将伪造区域和真实区域的特征结合起来,使得图像伪造定位具有挑战性。因此,为了准确定位图像伪造区域,将伪造区域与真实区域之间的特征解耦就显得尤为重要。
近年来,深度学习技术引起了越来越多的关注[23,57,58,65,66]。由于深度学习的发展,图像伪造定位取得了显著的效果。例如,ManTra-Net[55]将伪造定位问题视为局部异常检测问题,并提出了一种新的长短期记忆解决方案来评估局部异常。为了区分异源区域,SPAN利用CNNs从噪声图中提取局部异常噪声特征。MVSS-Net[5]通过多尺度监督网络学习多视图特征,共同利用噪声视图和边界伪影。然而,这些方法不能解耦伪造和真实图像之间的特征,这使得很难准确地定位精心伪造图像的篡改区域。如图1所示,在之前的方法中,伪造区域的特征与真实区域的一些特征耦合在一起,导致了错误的定位。
在这项工作中,我们提出了一种新的方法来避免两个区域(伪造和真实)的特征耦合,用于图像伪造定位。该方法的关键之一是构造一个动态图,其中伪造区域和真实区域之间的边缘参与了动态图的构造。我们通过重构边缘内外节点的邻接矩阵来控制边缘内外区域(即伪造区域和真实区域)的消息传递,从而实现伪造区域和真实区域之间特征的有效解耦。基于其功能,将边缘感知动态图卷积命名为区域消息传递控制器(RMPC)。
为了使用本文提出的RMPC进行图像伪造定位,需要获取伪造区域和真实区域之间的边缘信息,这是该方法的另一个关键。为此,开发了一种边缘重建(ER)模块,包括上下文增强图(CEG)和阈值自适应可微二值化模块。我们在CEG中特别设计了一个邻接矩阵学习器,该算法沿节点对全局信息进行编码,从而实现全局语义信息的集合。受Sigmoid函数的启发,我们开发了阈值自适应可微二值化边缘算法,该算法基于CEG的输出提供可学习的边缘。
综上所述,本文提出了一种新的两步图像伪造定位框架——边缘感知区域消息传递控制器(ERMPC),包括边缘感知区域消息传递控制器RMPC和ER。ERMPC可以有效地控制伪造区域和真实区域之间的消息传递,实现两个区域的有效解耦,从而提高图像伪造定位的性能。我们以边缘信息为主要任务,并以此为基础对两个区域之间的不一致性进行显式建模。据我们所知,这项工作是第一次尝试明确削弱伪造和真实区域之间的信息传递。我们的贡献如下:
我们提出了一种新的两步图像伪造定位框架ERMPC,该框架明确地利用边缘信息对伪造区域和真实区域之间的不一致性进行建模。
我们提出了一种边缘感知动态图,也称为RMPC,来控制特征映射中两个区域(伪造和真实)之间的消息传递。
我们开发了一个包含上下文增强图和阈值自适应可微二值化模块的边缘重建模块,以获得所需的边缘信息。
我们在多个基准上进行了广泛的实验,并证明我们的方法在定性和定量上优于最先进的图像伪造定位方法。
2. Related Works
2.1. Image Forgery Localization
大多数早期的工作都提出对特定类型的伪造进行定位,包括拼接[2、3、9、10、24、28、37、51、60]、复制移动[8、14、25、48、52、54]和移除[1、50、56、64]。虽然这些方法在检测特定类型的伪造方面表现出令人满意的性能,但由于未知和各种伪造类型的普遍存在,它们在实际应用中表现出局限性。因此,最近的研究强调需要一种方法来用一个模型去解决多种伪造类型。RGBN[62]提出了一种双流 Faster R-CNN网络。第一流旨在提取RGB特征并识别篡改工件,而第二流利用噪声特征对篡改区域和真实区域之间的噪声不一致性进行建模,从而提高图像伪造的准确性。ManTra-net[55]是一种端到端网络,可以同时执行检测和定位,它将问题视为异常检测,并引入长短期记忆解决方案来评估定位异常。SPAN[22]试图通过构建局部自注意块的金字塔来模拟空间相关性。MVSS-Net[5]设计了一个边缘监督分支,使用边缘残差块以从浅到深的方式捕获细粒度的边界细节。值得注意的是,边缘信息对于图像伪造检测和定位很重要,因为篡改区域通常被非自然的工件包围。然而,大多数研究只在监督策略中使用边缘,如MVSS-Net[5]、MFCN[41]、GSR-Net[61]和CAIFL[47]。PSCC-Net[35]使用渐进式空间-信道相关模块,该模块使用不同尺度和密集交叉连接的特征,以从粗到细的方式生成操作掩码。ObjectFormer[46]通过提取图像的高频部分并将其与RGB特征结合来捕获伪造痕迹。在这项工作中,我们明确地使用可学习的边缘作为指导信息来阻止消息在伪造区域和未篡改区域之间传递,并使用精细的边缘重建来实现两个区域的不一致建模,以定位操作工件。
2.2. Graph Reasoning
近年来,基于图的方法越来越受到计算机视觉界的关注,并被证明是一种有效的关系推理方法,具有强大的非局部特征聚合能力。具体而言,CDGCNet[21]采用了类级学习策略,设计了类级图卷积,避免了大量的图拼接,便于特征学习。为了克服大多数基于图的方法为每个查询项分配固定数量的邻居的问题,DAGL[39]提出了一种动态关注图学习模型来探索图像修复的动态非局部属性。CTL[34]学习了一种上下文增强的拓扑结构,通过考虑全局上下文信息和人体的物理连接来构建具有鲁棒表示能力的多尺度图。在计算机视觉的其他任务上,如物体检测[43]、多标签图像识别[6]和基于骨架的动作识别[36,59],图卷积神经网络也取得了令人印象深刻的表现。相反,我们提出了一种改进的边缘引导图注意模型,通过动态构造来阻止伪造区域和未伪造区域之间的信息传递,从而实现伪造区域的定位。由于图卷积是一种非常适用于伪造痕迹检测的有效的关系推理方法,本文首次将其应用于图像伪造定位任务。提出了一种改进的边缘引导图注意模型用于伪造区域定位,该模型通过动态构造阻碍伪造区域和未伪造区域之间的信息传递。
3. Methodology
该小节详细介绍了基于边缘感知消息传递控制器的图像伪造定位方案。第3.1节描述了该框架的概述。该方案的关键之一是控制消息的边缘传递,从而模拟伪造区域和真实区域之间的不一致性(第3.2节)。另一个关键在于从粗糙特征重建精确的边缘(第3.3节)。此外,根据[5,22,55,62],我们使用噪声分支,并在网络末端将其与RGB分支融合(第3.4节)。第3.5节介绍了这种优化。
3.1. Overview
图2是该框架的概述。输入图像表示为X∈RH×W ×3,其中H和W分别表示图像的高度和宽度。首先,我们使用两个分支分别处理RGB和噪声,分别得到Gr∈RHs×Ws×Cs和Gn∈RHs×Ws×Cs。然后,我们使用在ImageNet[11]上预训练的ResNet-50作为骨干网。根据[4],我们采用了空间金字塔池(ASPP)和ResNet-50来获取远程上下文信息。通过边缘重构块将RGB分支提取的粗特征转换为边缘。同时,以重构的边缘信息为指导,将粗特征构造为图结构。最后,通过双注意[5]将图卷积网络后的RGB特征与噪声信息融合,输出预测的伪造定位图。
3.2. Region Message Passing Controller
大多数伪造的图像都经过仔细处理,以隐藏篡改的工件,这使得在RGB分支中建模不一致性具有挑战性。为了克服这个问题,利用伪造区域和真实区域之间的边缘来显式地控制消息的传递。
边缘特征Ge∈RHe×We×1来自边缘重构块(将在下一小节中详细描述),其中He = Hs, We = Ws。首先,我们使用类似于XNOR的算法计算GE的两个节点特征Pi, Pj之间的关系:
如果两个节点分别位于边缘内外,则它们的XN设为0。对于N (N = He × We)个节点的每一个特征,我们计算它的XN,从而生成矩阵Ae∈RN×N。
接下来,我们应用图学习来处理Gr∈RHs×Ws×Cs。根据GAT[45],我们计算两个节点之间的相似度作为注意系数:
其中ψ, ψ '表示两个可学习的线性变换。具体来说,我们利用ψ = Wx和ψ ' = W 'x,其中W∈RCs×Cs和W '∈RCs×Cs都是权重矩阵。为了使系数更容易在不同节点之间进行比较,我们使用softmax函数对它们进行规范化:
其中,Ar∈RN×N为初步邻接矩阵。它反映了特征映射中任意两个节点之间的关系。较大的值表示两个节点之间的信息流较大。为了更好地实现消息传递控制,采用了动态调整邻接矩阵的方法。具体来说,如果两个节点分别在边界上和边界外,则由于邻接矩阵的动态调整,它们的邻接关系被打破。实际上,邻接矩阵的重新计算如下:
其中,⊙是Hadamard积。A′r∈RN×N重新建模特征映射中节点之间的权重,切断伪造区域与真实区域之间的连接。
一旦获得邻接矩阵,它被可学习的注意权值加权。然后对原有节点进行如下更新:
其中Zr∈RN×Cs为图推理后的RGB特征,Wz∈RCs×Cs为可学习参数,G′r∈RN×Cs为经Gr变换后的图表示。
值得注意的是,本工作不仅首次引入了图像伪造定位中控制消息传递的思想,而且实现的方法也不同于以往的研究[12,20]。BFP[12]使用有向无环图(DAG)进行特征传播,并在传播中引入边界信息来控制消息在不同分段之间的传递。然而,它必须逐像素扫描图像,并且需要大量循环,因此难以在实际应用中实现。BGC[20]强调减少边缘的权重,并没有真正关注区域之间的消息传递。
3.3. Edge Reconstruction
如前一节所述,感知边缘的消息传递控制图需要精确的边缘信息。设计这样一个边缘接入网络是非常重要的。主要的挑战是如何从粗特征中学习边缘信息。为此,提出了一种新的边缘重建方法。具体来说,我们首先使用Sobel层[5]来增强Gr∈RHs×Ws×Cs中的边缘相关模式,
其中Norm为L2归一化,σ为Sigmoid, Sobel为SobelConv[5]。
然后,我们探索一个上下文增强图(CEG),分别提取Gc∈RHs×Ws×Cs的局部和全局特征。具体来说,通过卷积层提取局部信息[5]。对于全局信息,将特征映射的上下文信息以简单高效的方式编码为邻接矩阵Ac∈RN×N。如图3所示,Ac是由一个专门设计的邻接矩阵学习器生成的,该学习器由两个1 × 1的卷积层组成。该过程写为
其中G′c∈RN×Cs由Gc重塑。给定G 'c的节点特征,我们首先通过1 × 1卷积层压缩特征维度。然后,使用另一个1 × 1核的卷积层将N维特征向量转化为N × N邻接矩阵。此外,L2归一化应用于每一行Ac,以促进稳定的优化。接下来,我们使用这个邻接矩阵来完成图推理。这样,我们就可以得到一个全局的特征映射。这个过程可以写成
其中Wc∈RCs×Cs为可学习参数。为了与局部信息维度匹配,我们将Global (G’c)∈RN×Cs重塑为Global’(G’c)∈RHs×Ws×Cs。然后结合局部和全局信息,我们可以得到边缘概率图Gp∈RHs×Ws×1:
其中σ为Sigmoid, C为1×1卷积层,Local包含ReLU和两个卷积层。
此外,为了确定边缘,需要确定一个阈值来二值化概率图。以往的研究大多采用固定阈值,且过程不可微。受[30]的启发,我们使用了一个可变阈值映射,该映射对概率映射Gp上的每个点都是自适应的。此外,我们提出了一个Sigmoid函数的变体来完成二值化,它能够参与所涉及的反向传播。二值化阈值调整是通过沿x轴平移Sigmoid函数实现的。因此,我们探索了阈值自适应可微二值化(TDB)方法用于边缘重建。计算公式如下:
其中τ表示可学习变换,实际为3 × 3个卷积算子,k为放大因子。特别地,k被经验地设置为500。
3.4. Branch Fusion
根据大多数研究[5,22,55,62],我们也采用了噪声分支。但是,这不是本工作的重点,所以我们使用了一些常用的方法。如图2所示,使用BayarConv[55]提取噪声。对于两个分支的融合,我们遵循[5],采用双重注意(Dual Attention, DA)[15]。数据分析包括通道注意模块(CAM)和位置注意模块(PAM)。它可以有效地融合两个分支。这个过程可以写成
其中,Gz∈RHs×Ws×Cs被Zr重塑。最后,我们通过双线性上采样将Go∈RHs×Ws×1变换为最终的预测掩模Gout∈RH×W ×1。
3.5. Optimization
如图2所示,我们计算了三个分量的损失函数:最终预测Gout∈RH×W ×1,二值边缘预测Ge∈RHe×We×1,边缘概率图Gp∈RHe×We×1。对于边缘损失,将边缘GT E∈RH×W ×1下采样到更小的大小E′∈RHe×We×1来匹配 Ge, Gp。该策略在计算成本和性能方面优于上采样Ge, Gp。整体损失函数可表示为:
其中L为Dice loss [5], Y∈RH×W ×1为ground-truth mask, λ1、λ2、λ3为loss function中平衡三项的参数(λ1 + λ2 + λ3 = 1),在我们的设置中,分别设为0.50、0.25、0.25。
4. Experiments
4.1. Experimental Setup
Pre-training Data. 我们创建了一个相当大的图像篡改数据集,并用它来预训练我们的模型。该数据集包括三类:1)拼接,2)复制-移动,3)移除。对于拼接,我们使用MS COCO[31]生成拼接图像,其中每张图像随机选择一个注释区域,经过多次变换后粘贴到不同的图像中。我们使用与[5]相同的变换,包括缩放、旋转、移位和亮度变化。由于拼接区域并不总是一个对象,我们使用Bezier曲线[38]创建随机轮廓并填充它们以创建拼接掩码。对于copy-move,采用MS COCO和[53]的数据集。对于移除,我们采用SOTA inpainting方法[29],填充从每张选定的MS COCO图像中随机移除的一个标注区域。我们在生成的数据中随机加入高斯噪声或应用JPEG压缩算法,以接近真实情况下图像的视觉质量。
Testing Datasets. 根据[46],我们在CASIA[13]数据集、Coverage[49]数据集、Columbia[19]数据集、NIST16[17]数据集和IMD20[40]数据集上对我们的模型进行了评估。具体来说,CASIA[13]在图像伪造领域被广泛使用,它包含了两种篡改图像的方式(拼接和复制移动)。dataset V1.0有固定大小的篡改图像,只能在Adobe Photoshop下使用裁剪粘贴操作生成。dataset v2.0更加全面和具有挑战性,大多数篡改示例都是通过后处理生成的。COVER[49]提供了100张图像,它们都是通过复制-移动篡改技术生成的。Columbia[19]由180张拼接图像组成,其大小从757 × 568到1152 × 568不等。具体来说,Columbia中被篡改的图像都是未压缩的,没有任何后处理。NIST16[17]是一个高质量的数据集。该数据集包含三种类型的篡改,并且一些操作区域很难被人类识别。IMD20[40]从互联网上收集现实生活中被操纵的图像,并涉及所有三种操纵。我们使用与[22,46,62]相同的训练/测试分割来微调我们的模型以进行公平的比较。
Evaluation Metrics. 为了量化定位性能,根据之前的工作[22,46],我们使用像素级曲线下面积(Area Under Curve, AUC)和F1分数对操作掩模进行量化。我们采用等错误率(EER)阈值对掩码进行二值化,因为二值化掩码是计算F1分数所必需的。
Implementation Details. 输入图像的大小调整为512 × 512。在这项工作中,主干是ResNet-50[18],在ImageNet[11]上进行预训练。我们的模型由PyTorch实现,使用GeForce GTX 3090进行训练。我们使用Adam作为优化器,学习率从10−4衰减到10−7。我们训练100个epoch, batch size为8,并且学习率每30个epoch衰减10倍。
4.2. Comparison with the State-of-the-Art Methods
继SPAN[22]和ObjectFormer[46]之后,我们的模型在两种设置下与其他最先进的篡改定位方法进行了比较:1)在合成数据集上进行训练并在完整的测试数据集上进行评估;2)在测试数据集的训练分割上对预训练模型进行微调并在测试分割上进行评估。预训练模型将展示每种方法的泛化性,而微调模型将展示一旦域差异显著减少,每种方法在定位的表现如何。
Pre-trained Model. 表1显示了在像素级AUC下,不同方法的预训练模型在四种标准数据集上的定位性能。在评估预训练模型时,我们将我们的模型ERMPC与MantraNet[55]、SPAN[22]、PSCCNet[35]和ObjectFormer[46]进行了比较。预训练的ERMPC在Coverage、CASIA、NIST16和IMD20上的定位性能表现最好,在Columbia上排名第二。特别是在复制-移动数据集COVER上,其图像伪造区域与背景难以区分,ERMPC达到了94.4%。这验证了我们的模型具有控制两个区域(伪造和真实)之间消息传递的优越能力。我们未能在Columbia取得最佳表现,在AUC下落后于PSCCNet 1.4%。我们认为,可能是他们的综合训练数据的分布与Columbia数据集的分布非常相似。表2的结果进一步支持了这一点,表2显示,ERMPC在AUC和F1得分方面都优于PSCCNet。此外,重要的是要注意,ERMPC在使用较少的预训练数据的情况下获得了不错的结果。
Fine-tuned Model. 用预训练模型的网络权值初始化的微调模型,分别在Coverage、CASIA和NIST16数据集的训练分割上进行训练。我们在表2中评估了不同方法的微调模型。对于AUC和F1,我们的模型实现了显著的性能提升。这证实了ERMPC可以通过控制特征映射中两个区域(伪造区域和真实区域)之间的消息传递来捕获细微的篡改工件。
4.3. Robustness Evaluation
我们使用[46]中的失真设置对NIST16中的原始操纵图像进行降级,以分析ERMPC对伪造定位的鲁棒性。这些失真类型包括将图像缩放到不同的比例(resize),应用核大小为k的高斯模糊(GaussianBlur),加入标准差为σ的高斯噪声(GaussianNoise),并以质量因子q进行JPEG压缩(JPEGCompress)。我们将预训练模型与SPAN[22]和ObjectFormer在这些损坏数据上的伪造定位性能(AUC分数)进行比较,并将结果报告在表3中。ERMPC对各种失真技术表现出更强的抵抗能力。值得注意的是,在向社交媒体上传图像时,通常会执行JPEG压缩。我们的模型ERMPC在压缩图像上的表现明显优于其他方法。
4.4. Ablation Analysis
该方法的区域消息传递控制器(RMPC)模块旨在削弱伪造区域和真实区域之间的消息传递。上下文增强图(CEG)沿着节点对全局信息进行编码以获得更好的边缘概率图,而阈值自适应可微二值化(TDB)自适应地对可学习边缘进行二值化处理。为了评估RMPC、CEG和TDB的有效性,我们将它们分别从ERMPC中移除,并在CASIA和NIST16数据集上评估了伪造定位性能。
表4给出了定量结果。基线表示我们只使用ResNet-50。可以看出,没有TDB, CASIA的AUC分数下降了2.0%,NIST16的AUC分数下降了1.5%,而没有CEG, CASIA的AUC分数下降了5.9%,NIST16的AUC分数下降了6.3%。此外,当丢弃RMPC时,在CASIA上可以观察到严重的性能下降,即AUC下降14.9%,F1下降22.2%,见表4。
在图5中,我们展示了阈值自适应可微二值化中参数k的不同值,以验证其在三个数据集上的效果。随着它的增大,二值化曲线变得更加陡峭。而且,小不足以削弱消息传递,而大则会破坏网络的自适应能力。很明显,设置为500是最优解。
4.5. Visualization Results
Qualitative results. 如图4所示,我们提供了各种方法的预测伪造掩码。由于ObjectFormer[46]的源代码不可用,所以他们的预测也不可用。结果表明,该方法不仅能较准确地定位篡改区域,而且能形成清晰的边界。它得益于我们的方法对不一致性的显式建模和对边缘的充分利用。
Visualization of message passing controller . 为了验证区域消息传递控制器(RMPC)的有用性,我们在图6中展示了控制器前后的特性变化。很明显,RMPC促进了伪造特征的学习并防止了假警报。具体来说,没有RMPC的网络会对与伪造物相似的物体做出错误的判断。
Visualization of edge reconstruction. 为了验证边缘重建(ER)模块的效果,EG前后的特征变化如图7所示。结果表明,EG可以有效地获取精确的边缘,从而帮助我们的模型更好地执行。
5. Conclusion
本文提出了一种新的图像伪造定位框架,该框架采用两步边缘感知区域消息传递控制策略。详细地说,第一步是考虑充分利用边缘信息。第二步,在可学习边缘的指导下,设计一个边缘感知的动态图来削弱伪造区域和真实区域之间的信息传递。本文为解决IFL领域的误判问题提供了一种新的研究策略。在多个基准上的大量实验结果证明了该算法的有效性。