MGQFormer: Mask-Guided Query-Based Transformer for Image Manipulation Localization

最新推荐文章于 2024-08-09 11:06:54 发布

吼吼吼哈哈哈诶诶诶

最新推荐文章于 2024-08-09 11:06:54 发布

阅读量962

点赞数 8

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/weixin_43780665/article/details/137568137

版权

AAAI' 2024

paper: https://ojs.aaai.org/index.php/AAAI/article/view/28520

code:

Abstract

基于深度学习的模型在图像篡改定位方面取得了很大进展，其目的是区分被篡改的区域和真实的区域。然而，这些模型的训练效率低下。这是因为他们主要通过交叉熵损失来使用GT掩码标签，这优先考虑了每个像素的精度，但忽略了被操纵区域的空间位置和形状细节。为了解决这个问题，我们提出了一个基于掩码引导的基于查询的transformer框架(MGQFormer)，它使用GT来指导可学习查询标记(LQT)识别伪造区域。具体来说，我们提取GT的特征嵌入作为引导查询标记(GQT)，并将GQT和LQT分别馈送到MGQFormer中来估计篡改区域。然后，我们提出了一种掩模引导损失算法，使MGQFormer学习GT中的位置和形状信息，以减小GQT和LQT之间的特征距离。我们还观察到这种掩模引导的训练策略对MGQFormer训练的收敛速度有显著的影响。在多个基准测试上进行的大量实验表明，我们的方法明显优于最先进的方法。

Introduction

近年来，由于深度生成模型和编辑技术的进步，数字图像处理风险变得越来越严重。越来越多的图像处理应用程序正在出现，并且很容易以视觉上难以察觉的方式产生篡改图像。传统的局部图像编辑方法包括复制-移动、拼接和删除，是目前常见的一种伪造方法，需要细致而熟练的处理。最近的深度生成模型，如GAN (Goodfellow et al. 2020)和扩散(Ho, Jain, and Abbeel 2020)模型，可以在指定区域生成逼真的虚假内容，或者使用语言提示来修改图像语义和风格。因此，这些被操纵的图像会引发各种社会安全问题，并可能误导公众。因此，建立一个可靠的模型来精确定位被操纵区域是现实的要求。

尽管已经取得了重大进展，但现有的图像处理定位网络存在两个缺点，导致性能不佳。首先，这些方法在最后的解码器过程中使用卷积神经网络(CNN)对逐像素特征进行分类(Lin et al . 2023;Zhang et al . 2021)，如图1 (a)所示。然而，卷积滤波器的局部接受野特性限制了对图像中全局信息的访问。为了解决这个问题，我们建议在图像处理定位任务中使用基于查询的transformer。图1 (b)显示，基于查询的单阶段方法利用可学习的查询标记(LQT)选择与自身高度相似的像素嵌入，使网络过程更具可解释性，并有效利用了transformer的注意机制。

第二个缺点是这些图像处理定位网络主要通过交叉熵损失来使用GT。然而，交叉熵损失不能利用被操纵区域的空间位置和形状细节。这是因为交叉熵损失在像素级别上进行操作，以评估每个位置估计是否正确，强调每个像素的精度。因此，网络训练是低效的。为了解决这个问题，我们将ground-truth mask输入到MGQFormer中，引导网络聚焦于伪造区域，从而实现高效的训练过程。

在本文中，我们提出了一个基于掩码引导的基于查询的transformer框架(MGQFormer)，该框架使用真实掩码引导可学习的查询标记(LQT)识别伪造区域。在训练过程中，我们首先使用多分支特征提取器从RGB输入图像中提取空间通道感知特征。它使用两个不同的transformer编码器分别从RGB输入图像及其噪声映射中提取特征。然后，利用空间注意力和通道注意力融合不同分布和域的RGB图像和噪声图特征;最后，将融合的特征输入到我们提出的基于查询的transformer解码器中，以输出图像中伪造区域的位置。如图1(b)所示，我们利用真实和伪造的LQT来区分被操纵的区域和真实区域。标记越接近真实的查询标记，它就越可信，而越接近伪造的查询标记，它就越具有欺骗性。

为了迫使LQT集中于伪造区域，我们提取了真值掩码特征作为真实和伪造的引导查询标记(GQT)，并将它们输入到解码器中，以估计伪造区域的位置。由于GQT来自于ground-truth mask，而ground-truth mask是预测mask的目标，因此GQT将包含伪造区域的空间位置和形状细节。因此，我们提出了一种掩模引导损失来减少GQT和LQT之间的特征距离。在对模型进行训练后，LQT还使网络集中在篡改区域的位置和形状上。因此，我们只在推理期间使用LQT来定位基于查询的transformer解码器中的被操纵区域。

综上所述，我们的主要贡献总结如下:

•我们引入了掩码引导的基于查询的transformer，它包含一个基于查询的transformer解码器，利用可学习的查询标记(LQT)来定位被操纵的区域。

•我们提出了一种掩码引导训练方法，该方法使用从GT掩码中提取的引导查询标记(GQT)作为指导来改进LQT。此外，我们设计了掩模引导损失，迫使GQT引导LQT专注于被操纵区域的空间位置和形状细节。

•我们在多个基准上进行了广泛的实验，并证明我们的方法在多个数据集上实现了最先进的性能。

Related Work

Image Manipulation Localization

尽管早期的方法在特定类型的操作上取得了优异的性能，包括拼接(Cozzolino, Poggi, and V erdoliva 2015b);Huh等人2018;Knyaz, Knyaz和Remondino 2019;吕、潘、张2014;Salloum, Ren, and Kuo 2018;Wu, Abd-Almageed, and Natarajan 2017)， copy-move (Cozzolino, Poggi, and V erdoliva 2015;D 'Amiano等人2018;Islam等人2020;Wu, Abd-Almageed, and Natarajan 2018b)，和移除(Wu and Zhou 2021;Wu, Abd-Almageed, and Natarajan 2018a;杨等2020;Zhu et al . 2018)，它们不能很好地推广到其他未知和多样化的伪造，限制了它们的实际应用。近期研究(Zhou et al . 2018;Wu, AbdAlmageed, and Natarajan 2019;Hu et al 2020;刘等人2022;Wang et al . 2022;Chen等2021;Cozzolino和V erdoliva(2019)试图建立一个统一的模型来解决多种伪造类型。RGB-N (Zhou et al . 2018)采用隐写分析丰富模型和Faster R-CNN (Ren et al . 2015)，但它只能输出边界框，而不是分割掩码。SPAN (Hu et al . 2020)通过局部自注意块的金字塔结构在多个尺度上建立空间相关性模型。PSCC-Net (Liu et al . 2022)利用渐进机制以及空间和通道相关来增强特征表示。ObjectFormer (Wang et al . 2022)结合RGB特征和频率特征来识别篡改伪影，ERMPC (Li et al . 2023)利用边缘信息来模拟伪造区域和真实区域之间的不一致性。在这项工作中，我们利用了新的基于查询的模型，并通过引入作为指导的GT来完成任务。

Efficient Training for Query-based Transformers

基于查询的Transformers使用可学习的查询嵌入来生成预测(Strudel等人2021;Li等人2022b;Cheng, Schwing, and Kirillov 2021)，得益于全局注意，它们可以从整个图像中捕获信息，获得比卷积网络更好的结果。然而，由于全局计算，导致训练过程变得困难。例如，DETR (Zhu et al . 2020)的训练效率较低，需要500次epoch。因此，本文提出了简化transformer训练的方法。DN-DETR (Li et al . 2022a)提出了添加带噪声的ground-truth box作为位置查询进行去噪训练的想法，该方法被证明可以有效加快检测速度。除了检测目标之外，Mask2Former (Cheng et al . 2022)在分割中提出了掩码关注，将预测的掩码作为注意掩码加入其中，与其他基于查询的模型相比，提高了查询的精细化速度。FastInst (He et al . 2023)使用实例激活引导查询，它从特征映射中选择具有高语义的像素，并在初始时保存有关潜在对象的丰富信息，以提高Transformer解码器中查询迭代的效率。MP-Former (Zhang et al . 2023)旨在解决Mask2Former中预测不一致导致查询利用率低的问题，并使用带噪的GT掩码作为注意力掩码，在早期进一步稳定训练。这些方法将引导应用于Transformer解码器，并打算有效地改进类查询。我们的方法与以前基于查询的分割方法不同，因为我们使用了额外的标记并将GT编码到GQT中。我们进一步提出了辅助损失和掩码引导损失来指导LQT的改进。

Method

我们的方法旨在使用掩码引导的基于查询的transformer(MGQFormer)来识别可疑图像中的被操纵区域。图2概述了我们的框架。我们将输入图像记为X∈RH×W ×3，其中H和W分别为图像的高度和宽度。我们首先使用BayarConv和Transformer Encoder从输入图像中提取RGB和噪声特征。然后，通过空间和通道注意模块(SCAM)融合多模态特征。我们设计了两个可学习的查询标记(LQT)来表示真实和伪造的特征，用于在我们提出的基于查询的transformer 解码器中搜索被操纵的区域。为了使查询标记的有效细化和基于查询的解码器快速收敛，我们提出了一种基于掩码的训练策略，该策略利用了真实掩码的空间位置和形状细节。具体来说，我们将经过噪声处理的GT掩码输入到MGQFormer中，得到引导查询标记(GQT)和辅助掩码Maux。然后，利用辅助损失 Laux使GQT包含篡改区域的空间和形状信息。此外，我们提出了一个掩模引导的损失Lguide来减少LQT和GQT之间的距离。

Multi-Branch Feature Extractor

图像处理定位通常包含复杂的后处理，使得检测细微差异和伪造痕迹对RGB域具有挑战性。因此，我们采用双分支transformer编码器来完全利用来自两个域的信息。BayarConv首先对输入图像X进行处理，提取噪声特征Xn∈RH×W ×3。然后将输入的图像和噪声映射发送到transformer编码器。具体来说，我们将X和Xn划分为大小为P的patch，将patch重塑为嵌入Xp∈RN×D，其中N = HW/P 2，为patch的个数，D为嵌入的维数。将可学习的位置嵌入pos∈RN×D添加到图像嵌入中，生成序列标记Z = Xp + pos，然后通过L Transformer层处理这些标记。在噪声分支上也进行了上述相同的处理。经过Transformer Encoder后，将两个分支的输出concat起来，得到Zc∈RN×2D，用于后续的融合。

来自双分支Transformer Encoder的上下文标记具有不同的域和单独的分布。因此，我们使用空间和通道注意模块(SCAM)来完成这项任务。我们首先重塑标记Zc，并使用卷积层得到Zm∈Rh×w×c，其中h = H /P, w = W /P, c = D。接下来，我们将Zm投影并转置为V = proj(Zm)∈Rhw×c, K = proj(Zm)∈Rhw×c, Q =transpose(proj(Zm))∈Rc×hw，其中每个proj是一个不同的投影层，包括1 × 1卷积和重塑操作。然后我们执行通道注意模块如下:

与此同时，我们继续计算空间注意力，除了Q和k的调换之外，与通道注意力几乎相同。随后，我们可以得到上下文token如下:

然后将图像特征标记Zf∈RN×D发送到基于查询的transformer解码器。

Mask Transformer Decoder

我们首先在推理阶段引入解码器。对于提出的基于查询的transformer解码器，我们使用了真实和伪造的可学习查询标记LQT∈R2×D。查询是随机初始化的，代表伪造和真实的特征。具体来说，图像特征标记Zf和LQT由n个基于transformer的层组成的解码器同时处理。在注意机制中，LQT与特征标记Zf交互，提取丰富的伪造信息。然后，我们得到了上下文的图像特征Z∗f和LQT∗。然后，掩码计算如下:

其中proj是一个线性层，norm表示L2归一化，我们通过在精细化的图像特征和可学习的查询标记之间执行标量积得到M*∈RN×2。为了得到最终的掩码，我们将序列重塑为掩码M**∈Rh×w×2，并对类维度应用softmax:

其中M∈RH×W为预测的掩码，upsample为双线性上采样操作，将掩码调整到与输入图像相同的大小。总之，我们的基于查询的方法利用真实和伪造的LQT来选择与自身高度相似的区域，这使得伪造区域的预测过程更具可解释性和有效性。接下来，我们将在下一节中描述transformer解码器的训练阶段。

Mask-Guided Training

基于查询的模型在相应的任务中取得了巨大的成功。然而，这些模型已被证明存在查询细化效率低的问题。以前的方法提出了去噪(Li et al . 2022a)和掩码注意(Cheng et al .2022a)等方法。我们指出，以前的方法缺乏通过伪造区域的位置和形状细节直接监督LQT，导致训练效率低下。这些方法主要通过交叉熵损失利用GT，优先考虑逐像素精度。为了解决这个问题，我们提出了一种掩码引导训练策略，该策略使用引导查询标记(GQT)强制LQT关注伪造区域的位置和形状。GQT通过提取带噪声的GT的特征得到，并利用辅助损失使GQT包含伪造区域的空间和形状信息。这样可以提高MGQFormer训练的收敛速度。

具体来说，我们首先将噪声添加到GT中。这一步是因为从原始的GT中预测辅助掩码对于transformer解码器和延迟训练来说可能过于简单。我们将点噪声应用于掩模，类似于用于盒去噪训练的DN-DETR (Li et al 2022a)，以获得更鲁棒的模型。我们随机选择掩码内的点，并将原始值反转以表示不同的区域。此外，我们使用一个调谐参数µ来表示面积的噪声百分比，因此噪声点的数量为µ·HW。

给定有噪声的掩码，我们进一步用卷积网络将掩码转换为GQT，以保持掩码中的空间信息，并将GT 掩码G∈RH×W转换为GQT∈R2×N。然后，GQT连同图像特征Zf和LQT一起发送到transformer解码器。在解码器中，GT信息GQT作为与其他查询交互的指导，并帮助解码器改进LQT。

在transformer解码器之后，我们得到图像特征Z*f和查询标记LQT*和GQT*，它们已经被GT标记GQT引导。辅助掩码Maux∈RH×W通过在Z∗f和GQT∗上执行标量积进一步计算，其过程与掩码transformer解码器部分中描述的过程相同。然后我们让Maux参与到损失计算中。

Auxiliary Loss. 由于我们使用卷积网络将GT掩码转换为查询，并且掩码被加噪以保持鲁棒性，因此需要对卷积网络进行监督以使辅助掩码更准确。因此，我们使用如下像素级交叉熵损失，使GQT包含伪造区域的空间和形状信息:

其中，G∈RH×W为ground-truth mask。请注意，我们使用原始的GT掩码G计算辅助损失，而不应用噪声使模型预测所需的精确掩码。

Mask-Gudied Loss. GQT的目的是引导LQT，两者的处理方式相同，生成预测掩码M和辅助掩码Maux。因此，我们期望LQT变得与GQT相似，以使预测更加精确。使用余弦相似度损失来减少两个查询的距离，可以表示为:

cos表示计算余弦相似度。

Loss Function

总损失函数L包括三部分:使Maux准确的辅助损失，使LQT*和GQT*更接近的掩码引导损失，以及预测掩码M的定位损失Lloc，它采用与辅助损失相同的交叉熵损失。

其中λ是一个权重参数，在训练时设置为0.5。

Experiment

Experiment Setup

Testing Datasets. 我们首先使用PSCC-Net合成的数据集预训练我们的模型(Liu et al 2022)。然后，我们在CASIA数据集(Dong, Wang, and Tan 2013)、Columbia数据集(Hsu and Chang 2006)、NIST16数据集(Guan et al 2019)和IMD20数据集(Novozamsky, Mahdian, and Saic 2020)上评估了我们的模型。具体来说，CASIA提供了在图像伪造领域广泛出现的拼接和复制移动图像。Columbia由180张拼接图像组成，这些图像没有经过压缩，也没有后处理。NIST16是一个具有挑战性的数据集，其中有564张高分辨率图像，眼睛很难识别。IMD20收集了35000张不同相机型号拍摄的真实图像，由不同的绘画方法产生的不同类型的操作组成。

Evaluation Metrics. 为了评估所提出的MGQFormer的定位性能，遵循PSCC-Net (Liu et al 2022)，我们报告了图像级F1分数和曲线下面积(Area Under Curve, AUC)作为评估指标。我们采用固定阈值对预测掩码进行二值化，这是计算F1分数所必需的。

Implementation Details. MGQFormer使用NVIDIA GTX 1080 Ti GPU在Pytorch上实现。所有输入图像都被调整为384 × 384。我们使用Adam作为优化器，学习率从2.5e-7衰减到1.5e-8，批大小为2。特征提取器使用ImageNet预训练的ViT模型权值(Steiner et al 2021)初始化，该模型权值为12层，patch大小为16，而解码器使用来自截断正态分布的随机权值初始化，该分布具有6层。

Comparison with State-of-the-Art Methods

我们将我们的模型与其他最先进的方法在两种设置下进行比较:1)在合成数据集上进行训练，并在完整的测试数据集上进行评估。2)在测试数据集的训练分割上对预训练模型进行微调，并在测试分割上进行评估。对于预训练模型，我们使用ManTraNet (Wu, AbdAlmageed, and Natarajan 2019)， SPAN (Hu et al 2020)， ObjectFormer (Wang et al 2022)和ERMPC (Li et al 2023)来评估性能，同时进一步与微调模型的RGB-N (Zhou et al 2018)和PSCC-Net (Liu et al 2022)进行比较。

Pre-trained Model. 表1报告了预训练模型的最佳定位AUC(%)分数。我们可以观察到，MGQFormer在Columbia、CASIA、IMD20和所有数据集的平均AUC(%)上取得了最高的性能，并且在NIST16上取得了具有竞争力的性能。特别是，MGQFormer在实际IMD20数据集上达到88.3%，比ERMPC高出2.7%。这验证了我们的方法具有出色的篡改痕迹捕获能力和对高质量数据集的泛化能力。在NIST16数据集上，我们无法达到最佳性能。我们认为transformer网络的性能受到训练分辨率的影响。如果测试时的分辨率接近训练时的分辨率，则可以完全实现高性能。然而，NIST16是一个高分辨率的数据集，大大超过了我们的训练数据集。

Fine-tuned Model. 为了弥补合成数据集与标准数据集之间的视觉质量差异，利用预训练模型的网络权值初始化微调模型，在CASIA数据集的训练分割上进行训练。如表2所示，我们将AUC和F1结果(%)与其他方法进行比较，我们的模型达到了最好的性能，这表明MGQFormer可以通过查询有效地捕获细微的篡改伪影。

Robustness Evaluation

我们对来自Columbia数据集的原始图像应用了不同的图像失真方法，并评估了我们的MGQFormer的鲁棒性。失真类型包括:1)调整不同尺度的图像大小，2)高斯模糊(核大小为k)，以及3)JPEG压缩(质量因子为q)。我们比较了预训练模型在原始数据集和损坏数据上的操作定位性能(AUC分数)，并报告了表3中的结果。与以前的方法相比，MGQFormer对所有失真都具有最好的鲁棒性。特别是当面对大小调整和JPEG压缩时，我们的方法的性能略有下降，这表明基于补丁的MGQFormer对低质量图像具有鲁棒性。

Ablation Analysis

MGQFormer的设计包含多分支特征提取器和掩码引导训练。多分支特征提取器使用一个额外的BayarConv分支来利用噪声信息，并使用SCAM融合两个域。利用掩码引导的训练方法添加ground truth信息，引导LQT关注目标区域，提高查询改进的效率。

Ablation Study of Noise Branch. 定量结果如表4所示。基线表示我们只使用单个编码器和基于查询的transformer解码器。为了评估噪声分支的有效性，我们使用单个RGB分支并去除SCAM。我们可以观察到，没有噪声分支，Columbia的AUC分数下降了1.1%，CASIA的AUC分数下降了2.3%。性能提升验证了多分支特征提取器的使用有效地提高了模型的性能。

Ablation Study of Mask-guided Training.

为了证明mask引导训练的效果，我们在Transformer解码器中只留下LQT和图像特征，在训练时去掉ground-truth mask的输入。如表4所示，在没有掩码引导训练的情况下，Columbia的AUC分数下降了2.8%，CASIA下降了3.6%。

除了改进定位，掩码引导训练进一步加快了收敛速度。为了评估这种效果，我们比较了不同时期存在和不存在训练策略的结果。如图3所示，我们在训练期间显示合成数据集的验证分割上的AUC(%)分数。事实证明，MGQFormer在一开始就显著提高了训练量，在第一个epoch就比没有mask引导训练的模型提高了12.7%，显著加快了收敛速度。这表明GQT确实有助于Transformer解码器提高精进LQT的效率。

Ablation Study of applying noises to GT guiding masks. 在图4中，我们显示了参数µ的不同值，表示噪声点的百分比，以验证其对Columbia和IMD20的影响。随着它的增加，GT掩码具有更多的噪声点，从而得到更鲁棒和广义的模型;但是，过大的值可能会对空间信息造成破坏，误导网络。相比之下，较小的µ值提供了更准确的GT掩码，但模型可能太容易预测辅助掩码和延迟训练。通过比较可以看出，0.01的设置是最优解。点噪声的使用实现了0.9%/1.2%的AUC增益，如表4所示。

Visualization Results

Qualitative Results. 如图5所示，我们提供了各种方法的预测伪造掩码。我们可以观察到，PSCC-Net和ManTraNet要么输出错误区域，要么做出不明确的预测。可视化结果的对比表明，该方法不仅可以更准确地定位篡改区域，而且可以输出清晰的篡改区域。它得益于多模态信息和基于查询的transformer解码器，该解码器采用全局注意生成掩码。

Visualization of Mask-guided Training. 为了验证掩码引导训练的有效性，我们在图6中展示了MGQFormer预测的掩码、未经掩码引导训练生成的掩码以及辅助掩码。从预测掩码和辅助掩码的相似性可以看出，MGQFormer利用GT对伪造区域进行了聚焦。具体来说，没有经过掩码引导训练的网络会对相对较小的对象做出错误的判断。

在图7中，我们进一步展示了表示来自MGQFormer的Transformer解码器中的伪造的LQT的注意图与未经过掩码引导训练的注意图之间的差异。很明显，在掩码引导训练中，由于GQT的引导，LQT可以准确地聚焦到目标区域。相比之下，没有掩码引导训练的LQT不能很好地检测伪造，甚至被分配到代表真实地点的完全相反的区域。这一比较表明，所提出的包含来自GT掩码的空间和形状信息的GQT可以迫使LQT集中在我们分配给LQT的正确类型的区域上。

Conclusion

在本文中，我们提出了一个新的基于掩码引导的基于查询的transformer框架(MGQFormer)。具体而言，第一步是使用双分支transformer编码器提取RGB和噪声特征，并进一步融合它们。第二步，我们将带噪声的GT掩码转换为引导查询标记(GQT)，并将GQT和LQT分别输入到MGQFormer中来估计篡改区域。我们进一步提出了辅助损失和掩码引导损失来指导LQT的改进。可视化结果表明，所提出的掩码引导训练策略对MGQFormer训练的收敛速度和定位性能有显著影响。在多个基准测试上的大量实验结果证明了算法的有效性。

吼吼吼哈哈哈诶诶诶

关注

8
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
MGQFormer: Mask-Guided Query-Based Transformer for Image Manipulation Localization

基于深度学习的模型在图像篡改定位方面取得了很大进展，其目的是区分被篡改的区域和真实的区域。然而，这些模型的训练效率低下。这是因为他们主要通过交叉熵损失来使用GT掩码标签，这优先考虑了每个像素的精度，但忽略了被操纵区域的空间位置和形状细节。为了解决这个问题，我们提出了一个基于掩码引导的基于查询的transformer框架(MGQFormer)，它使用GT来指导可学习查询标记(LQT)识别伪造区域。
复制链接

扫一扫