UnionFormer: Unified-Learning Transformer with Multi-View Representation forImage Manipulation Dete

CVPR' 2024

paper: https://jianweiguo.net/publications/papers/2024-CVPR-unionformer.pdf

code:

Abstract

我们提出了一种新的框架unionformer,它通过统一学习集成了三个视图的篡改线索,用于图像处理检测和定位。具体来说,我们构建了一个BSFI-Net,从RGB和噪声视图中提取篡改特征,在不同尺度上调制空间一致性的同时,增强了对边界伪影的响应能力。此外,我们将对象一致性建模与篡改检测和定位结合成一个三任务统一的学习过程,使它们相互促进和提高,以探索对象之间的不一致性作为线索的新视角。因此,我们获得了一个统一的多尺度监督下的篡改判别表示,该表示整合了来自三个视图的信息。这种集成促进了对篡改的高效并发检测和定位。我们在不同的数据集上进行了大量的实验,结果表明,所提出的方法在篡改检测和定位方面优于最先进的方法。

1. Introduction

深度生成模型的快速发展,如GANs[21,43,60]、VAEs[31,50]和扩散模型[10,45,53],促进了人工智能生成内容(AIGC)工具[8]的广泛可用性。与此同时,图像编辑工具已经变得非常用户友好和强大,能够创建高度逼真的图像和视频。这有助于用户更好地表达他们的创造力,但也加剧了恶意使用编辑技术篡改多媒体内容,导致互联网上虚假图像的泛滥[57]。因此,开发一种普遍有效的方法来识别图像的真实性并准确定位修改区域就变得至关重要。相关算法的研究已成为热门话题[3,28],已经提出了许多基于深度学习模型的最先进的方法。

数字图像篡改主要有三种类型[19]:拼接,将图像中的区域复制到另一个图像中;复制-移动,指复制或移动同一图像内的元素;删除是指删除图像的某些部分,并创建视觉上一致的内容,以掩盖这些变化的过程。这些操作在被篡改的区域和周围环境之间留下痕迹,造成真实区域和伪造区域之间的不一致。与强调高级语义信息的传统检测或分割任务不同,图像篡改检测优先考虑区分真实性的局部语义不可知线索,而不是语义内容。因此,篡改检测的关键挑战是学习结合不同级别信息的泛化特征,并捕获真实区域和篡改区域之间的多尺度不一致性。以前的方法主要是利用为高级视觉任务设计的深度卷积神经网络作为特征编码器或直接连接来自不同层的特征[23,27,40,71],这些方法不能充分表示篡改痕迹。受[9,12,67]的启发,我们设计了一个专门用于提取取证伪影的边界敏感特征交互网络(BSFI-Net),并将其集成为我们框架中的特征编码器。BSFI-Net是一种并行的CNN-Transformer结构,可以增强边缘响应,同时有效地在局部特征和全局表示之间进行交互,以探索不同尺度下图像内的一致性。

另一方面,在RGB视图中难以察觉的许多篡改伪影在噪声视图中变得明显可见。采用固定的[18]或可学习的高通滤波器[6,35,66]将RGB图像转换为噪声图,可以抑制内容,突出低级伪造线索。因此,开发一种同时模拟RGB和噪声维度的多视图策略对于检测细微的篡改痕迹至关重要。我们的框架采用双流架构来独立构建RGB和噪声视图的表示,然后将它们合并,以增强区分能力和泛化能力。此外,我们加入了对比监督,以改善两种视图之间的协作。

此外,为了创建空间连贯和语义一致的图像,篡改操作总是改变整个对象以隐藏证据,即执行对象级操作。当前的高级方法侧重于像素级或补丁级一致性,而忽略了对象级信息。相反,我们认为图像处理检测应该不仅仅是识别超出分布的像素或补丁,还应该捕获由于操作而导致的对象一致性和分布的异常。由于扩散模型[4,5,20,30,44,65,69]产生的超逼真篡改图像,利用物体视图信息变得尤为重要。基于扩散的模型[4,30,44]反复更新整个图像的初始噪声,增强空间连续性,并留下更少的RGB和噪声痕迹。此外,与真实的图像源不同,由自然语言提示引导的自动生成的伪造部分更有可能表现出对象不一致。最近的扩散模型[20,29,55,64]试图通过采用以对象为中心的方法来解决这个问题,强调了对象视图线索用于篡改检测的必要性和可行性。然而,为了篡改伪影表示而创建和集成这样一个新颖的视图是一个重大的挑战,需要新的体系结构和学习策略。

考虑到上述要点,我们介绍了UnionFormer,这是一个用于图像处理检测和定位的统一学习transformer框架,具有多视图表示,如图1所示。首先,我们使用BSFI-Net作为特征编码器,获得RGB视图和噪声视图下的可泛化特征,并将它们组合在一起;然后,我们利用融合的特征进行统一的学习过程,该过程包括三个子任务:对象一致性建模、伪造检测和定位。在统一学习中,我们的模型建立了对象视图表示,并将三个视图信息集成到统一的伪造判别表示(UMDR)中,同时完成伪造检测和定位。

综上所述,我们的主要贡献如下:

•我们提出了一种新的图像取证transformer框架: UnionFormer。通过采用多尺度监督的统一学习,UnionFormer集成了所有三个视图的信息,同时执行图像处理检测和定位。

•我们引入了BSFI-Net,这是一种用于高级伪影表示学习的混合网络结构,它增强了边界响应,同时揭示了跨领域不同层次的局部不一致性。

•通过UMDR的统一学习,我们构建了一种创新的对象视图表示,能够捕获对象之间的不一致性,并从三个视图中聚合信息进行伪造检测。

•我们涉及各种基准的综合实验,证明我们的方法在检测和定位任务中都达到了最先进的结果。

2. Related Work

Forgery Artifacts Representation. 大多数早期工作[17,33,42]设计了手工制作的特征来表征篡改痕迹,通常检测特定类型的操作。然而,在现实场景中,各种编辑操作通常是组合在一起的,并且类型未知,因此需要更多的工作来关注实际的通用篡改检测[13,23,27,59,62]。实现一般检测需要更多可泛化和语义不可知的特征,因此一系列工作探索RGB视图之外的线索,以捕获更广泛的篡改痕迹。最常见的方法是使用固定的[18]或可学习的[6,34,66]滤波器将图像转换为噪声视图,以突出弱的低伪影。其他一些研究利用频率感知线索提供了一个互补的观点[49,54]。这些低级特征总是与来自RGB视图的高级特征相结合,以更有效地检测[23,27,34,36,62,70]。例如,[13]采用双重注意来结合RGB视图和噪声视图的信息。[59]提取图像的高频特征,并将其与RGB特征结合作为多模态patch embedding。相比之下,我们不仅结合了两个流(RGB和噪声视图)的篡改表示,而且通过对比监督促进了它们之间的充分互动。此外,我们还结合了一种新的视图,对对象之间的不一致性进行建模,为操作检测提供了强大的额外线索。

Transformer in Vision. Transformer[58]采用自注意机制对远程依赖关系进行建模,并在自然语言处理(NLP)中取得了广泛成功。一些工作受到启发,探索了Transformer 架构在各种计算机视觉任务中的应用,并表现出优异的性能。具体来说,ViT[16]将图像重新塑造成patch序列,并将其送入Transformer 编码器进行图像分类。DETR[9]和Deformable DETR[72]使用具有可学习查询和二部匹配的Transformer 编码器-解码器架构实现端到端对象检测。CMX[68]提出了一种整合RGB和其他模态信息的语义分割Transformer 框架。在这项工作中,我们首先引入了一个CNN-Transformer并行编码器BSFI-Net,用于篡改特征提取。然后,我们利用统一学习Transformer框架整合多视图信息,用于图像处理检测和定位。

3. Method

在本节中,我们首先概述UnionFormer并详细介绍每个组件。我们的目标是充分利用来自三个视图的丰富伪影来同时进行篡改检测和定位。我们通过多尺度监督下的统一学习过程来实现这一目标。如图1所示,首先使用约束CNN[7]将输入的RGB图像X转换为噪声视图表示N = C(X),可以发现低级篡改。然后,将X和N分别送入边界敏感特征交互网络(BSFI-Net)进行特征编码。高频边缘特征(H)与X或N作为输入合并到BSFI-Net中,以提高边缘响应性。这使我们能够在RGB和噪声视图下获得可泛化和判别的特征,构建两个特征金字塔fr = E1(X, H), fn = E2(N, H)。随后,我们使用区域proposal网络(RPN)[51]从特征fr中获得一组兴趣区域(RoIs),表示为pi。从fr和fn中提取RoI信息,然后将其展平以获得proposals的嵌入表示,表示为ri, ni。将每个proposal的RGB特征ri和噪声特征ni连接起来,生成融合的proposals特征di,并将其输入到transformer Encoder层。

在统一学习阶段,我们解决了三个子任务:对象一致性建模、真实性二元分类和篡改区域定位。在transformer编码器之后,将伪造判别查询嵌入DI输入到统一操作判别表示部分,为三个子任务生成三个预测。如图1所示,我们对lcls、Locm和Lloc三个子任务采用统一形式的多尺度监督。

3.1. Feature Interaction Encoding

RGB and Noise View Representation. 我们利用双流结构在特征编码阶段利用来自RGB和噪声视图的线索。RGB流旨在捕捉视觉上明显的篡改伪影,而噪声流旨在探索篡改区域和真实区域之间的分布不一致性。我们使用[7]中提出的可学习约束卷积层将RGB图像转换为噪声视图。

如第2节所述,被篡改区域的边缘及其周围显示出更突出的篡改线索。因此,我们增强了两个流中的高频边缘信息,将网络的响应集中在篡改区域。具体来说,我们利用离散余弦变换(DCT)将图像数据X转换到频域,然后应用高通滤波器获得高频分量。然后,我们将高频分量转换回空间域,以促进特征交互并保持局部一致性。因此,得到边缘增强信息H为:

其中Td为DCT, Fh为高通滤波器,β为阈值。我们将X和N分别输入到BSFI-Net中,和H一起用于特征编码,如图2所示。

Boundary Sensitive Feature Interaction Network. 除了增强边界响应外,整合局部特征和全局表征是图像伪造检测的关键。这允许在不同尺度上对图像中的不一致性进行全面分析。受[48]的启发,我们提出了一种称为BSFI-Net的CNN-Transformer并发网络,该网络在保持边缘灵敏度的同时,促进了两个分支中不同尺度特征之间的彻底交互。

如图2所示,CNN分支作为主分支,以RGB或噪声图像作为输入,对局部信息进行编码。transformer支路以边缘增强信息H作为输入,引导CNN支路聚焦篡改区域,并向其传输图像patch之间的长距离不一致性。我们使用[48]提出的特征耦合单元(Feature Coupling Unit, FCU)来消除来自CNN分支的特征映射与来自transformer分支的patch嵌入之间的不对齐。此外,我们还设计了一个面向边界的块(Boundary Oriented Block, BOB),便于从transformer支路向CNN支路传输高级的patch一致性和边界信息,以指导CNN支路。

CNN分支由5个卷积块组成,类似于ResNet的构造[24]。与[16,48]一样,transformer支路由5个重复的transformer块组成,其中包括多头自关注模块和MLP块。采用与ViT[16]相同的标签化操作。在FCU中,首先使用1×1卷积和重采样对通道和空间维度进行对齐,然后添加patch嵌入和CNN特征。在BOB中,来自CNN分支的特征映射被馈送到1×1卷积层、批处理归一化层、sigmoid层,并通过双线性插值上采样到高分辨率。然后,对来自CNN分支的特征用长距离区分权值进行逐元素乘法。我们将BSFI-Net作为特征编码器进行预训练,生成RGB和噪声视图表示,基于中间特征映射{C2, C3, C4, C5}, 由特征金字塔网络[38]生成两个特征金字塔fr, fn。训练细节见第4.1节。

3.2. Feature Contrastive Collaboration

在特征协作阶段,受[51,56]的启发,我们首先采用基于RGB特征金字塔的区域proposal网络(RPN)来生成一组感兴趣区域(RoIs)。然后,我们利用RoIAlign[25]从两个流的特征金字塔fr和fn中提取RoIs信息。除了特征连接之外,我们还采用对比监督来促进两个视图之间的协作。我们将来自不同流的篡改proposal视为正proposal,将篡改proposal和真实proposal分配为负对,根据InfoNCE损失[47,67],对比损失定义为:

式中,s0表示正对之间的相似度,s1表示RGB篡改嵌入与噪声真实嵌入的相似度,s2表示RGB真实嵌入与噪声篡改嵌入的相似度。对比损失Lcon被引入到统一学习的监督中,将在3.3节中讨论。

3.3. Unified Learning with Multi-Scale Supervision

Transformer Encoder. 我们的统一学习模块是一个只有编码器的transformer架构,它处理融合的proposal嵌入di,以及它们的特定位置编码作为输入。在transformer编码器的每一层中,自注意机制聚合跨不同proposal嵌入的信息,并捕获它们的远距离依赖关系,从而暗示对象的一致性。具体来说,我们使用了一个具有六层,512宽度和八个注意头的transformer解码器。transformer内部的前馈网络(FFN)的隐藏大小为2048。在transformer编码器之后,我们生成判别查询嵌入DI,并将其输入到统一伪造判别表示(UMDR)部分,以生成三个子任务的预测,即对象一致性建模,图像操作检测和定位。

Unified Manipulation Discriminative Representation.  在transformer编码器之后,DI中的每个篡改判别查询表示对应proposal的三个视图中的篡改线索。图3显示了三个子任务的学习过程。UMDR是在真实性分类、对象一致性建模和操作定位分支的监督下学习的。与DETR[9]和SOLQ[12]一样,分类分支是一个全连接(FC)层,用于预测真实性置信度 ˆPc。对象一致性建模分支是一个隐藏大小为256的多层感知(MLP),用于预测对象空间信息 ˆPo。操作定位分支也是一个隐藏大小为1024的多层感知,用于预测定位掩码向量ˆPm。前两个分支的监督与DETR[9]类似。在第三个分支中,我们利用对GT进行编码得到的掩码向量作为监督信息。在推理过程中,将压缩后的编码过程应用于ˆPm,用于重构定位掩码。在压缩编码中,我们利用主成分分析(PCA)将二维空间二进制掩码转换为一维掩码向量。

Loss Function. UnionFormer监督的整体损失函数可表示为:

其中Lcls为focal损失[39],用于分类。Lloc为定位掩码向量监督的L1损失。Lcon是3.2节中介绍的对比学习损失。λcls、λloc和β为相应的调制系数。Locm是对象一致性建模的损失,定义为:

其中LL1和lgious分别为L1损失和广义IoU损失[52],与DETR相同。λL1和λgious为对应系数。根据[12],Lloc不包含在二部匹配过程中。

4. Experiments

4.1. Experimental Setup

Training.  我们使用了一个大规模的训练数据集,包括各种类型的篡改和真实图像。它分为五个部分:1)CASIA v2 [14], 2) Fantastic Reality[32], 3)来自COCO 2017数据集的Tampered COCO[37], 4)基于RAISE数据集构建的Tampered RAISE[11],以及5)从COCO 2017和RAISE数据集中选择的原始图像。我们对合成数据随机添加高斯噪声或应用JPEG压缩来模拟真实场景中的视觉质量和篡改痕迹。在训练过程中,我们分三个阶段依次训练BSFI-Net、RPN和整个UnionFormer。

Testing. 为了全面评估和比较我们的模型与各种最先进的方法,我们使用了六个公开可用的测试数据集和一个由混合扩散模型[4]创建的超现实篡改图像数据集。具体而言,我们使用了CASIA v1[14]、Columbia[26]、Coverage[61]、NIST16[22]、IMD20[46]和CocoGlide[23]。然后,我们构建了BDNIE,包括我们从高级混合扩散模型生成的512张超现实假图像,用于文本驱动的自然图像编辑。训练和测试数据的详细信息见附录。

Evaluation Metric. 我们评估了该方法在图像篡改检测和定位任务中的性能。对于定位图像操作的任务,我们使用最佳阈值和固定的0.5阈值报告像素级曲线下面积(AUC)和F1分数。对于检测任务,根据[23],我们采用图像级AUC和平衡精度,同时考虑虚警和漏检,阈值设为0.5。为保证比较的公平性和准确性,其他方法的部分结果值均取自文献[23,59]。

Implementation Details. 使用AdamW优化器[41],对BSFI-Net进行100次交叉熵损失训练,批大小为512,权值衰减为0.05。初始学习率设置为0.001,并以余弦表衰减。

在使用Lunion训练完整的UnionFormer过程中,受到[56,63]的启发,我们采用36 epoch (3x)的时间表来训练UnionFormer,进行2.7 × 10^5次迭代,批大小为16。在此阶段还使用了AdamW优化器。开始时学习率设为10^−4,在1.8 × 10^5和2.4 × 10^5次迭代时乘以0.1。

4.2. Comparision with state-of-the-art

Baseline. 为了确保公平和准确的比较,我们只选择了作者提供预训练模型、发布源代码或在共同标准[27,40,59]下评估的最先进的方法。为了减少偏差,我们专门考虑了在不与测试数据集重叠的数据集上训练的方法或版本。详细地说,我们包括了七种最先进的方法:MantraNet [62], SPAN [27], PSCC-Net [40], MVSS-Net [13], CAT-Net v2 [34], ObjectFormer[59]和TruFor[23]。

Localization Results. 表2和表1分别给出了基于像素级AUC和F1评分指标的图像篡改定位结果。排名第一的方法用粗体表示,水平线表示排名第二的方法,在表4和表3中应用了相同的注释。我们的方法在所有数据集上展示了像素级AUC评估的最佳性能。对于F1评估,我们的方法在所有数据集中排名最佳或第二。平均而言,无论使用最优阈值还是固定阈值,我们都取得了显著的优势。事实上,在相对新颖的包括基于扩散的局部操作的CocoGlide数据集上,我们在两个阈值上分别比排名第二的TruFor高出2.2%和1.3%。这是由于UnionFormer构建对象视图伪影表达,它可以揭示扩散模型生成的区域和真实区域之间的不一致性。这些比较表明,我们的方法具有较强的泛化能力和较好的捕获篡改伪影的能力。

Detection Results.  表4为篡改检测的对比结果。根据[23],对于没有明确为检测任务设计的方法,我们使用定位图的最大值作为检测统计量。UnionFormer在除Columbia以外的所有数据集上都实现了最佳性能,并且在平均结果上表现出明显的优势,无论是用AUC还是平衡精度来衡量。正如[13,23]所述,准确性对阈值选择很敏感,如果没有良好校准的数据集,很难确定。然而,我们的方法和排名第二的TruFor在这种苛刻的情况下取得了值得称赞的结果。我们在平均AUC和准确度上分别保持2.5%和2%的领先优势。这种优势主要归功于我们框架的统一学习过程。统一学习通常有助于定位和检测任务的相互增强。通过统一的操作判别表示来掌握两个子任务,进一步提高了模型的性能。

Robustness Evaluation. 我们通过将图像失真应用于NIST 16数据集图像来测试UnionFormer的鲁棒性。根据[40,59],我们纳入了四种类型的失真:1)将图像的大小改变为不同的尺度;2)采用核大小为k的高斯模糊;3)加入以标准差σ为特征的高斯噪声;4)利用质量因子q对图像进行JPEG压缩。我们将像素级AUC性能与其他方法进行比较。表3显示,我们的方法对各种失真操作表现出鲁棒性,优于其他方法。

4.3. Visualization Results

Qualitative Comparison. 图4显示了跨不同数据集的定位结果。我们的方法可以准确定位篡改区域,预测更详细和清晰的边界。这是由于我们的多视图伪像捕获和BSFI-Net,其中频率信息增强了边缘响应,分支之间的相互作用增强了特征的泛化和识别。由于对象视图线索的建模和统一的学习框架,我们的方法在具有挑战性的BDNIE数据集上取得了令人满意的结果,而其他方法则失败了。

Visualization of Different View Representation. 在图5中,我们可视化了BSFI-Net中transformer支路的噪声特征和边缘引导特征。如第1至4列所示,有些图像在RGB视图中可能看起来很自然,但在频域或噪声视图下很容易区分它们的篡改/真实部分。第5列和第6列显示了BSFI-Net的单个CNN分支和双分支生成的RGB特征。与仅使用CNN支路相比,BSFI-Net通过transformer支路提供的边缘引导和远距离线索,更准确地激活篡改区域。

此外,我们定量地分析对象视图,如图6所示。在统一学习阶段,我们从transformer编码器导出了关联矩阵Ai。基于Ai,我们随机选择一个proposal嵌入子集,并计算它们与其他proposals的平均亲和度,记为ei。然后将Ei归一化为范围[0,1],并用作可视化proposals的颜色系数,颜色越浅表示亲和力越低。结果表明,具有伪造对象的proposals与其他区域的平均亲和力较低,这表明UMDR能够捕获真实和虚假对象之间的不一致性。

4.4. Ablation Study

消融研究是为了评估我们方法中关键部件的影响。定量结果如表5所示。我们可以观察到,在第一个基线模型上加入噪声流,在CASIA v1和NIST 16上的AUC分数分别提高了8.7%和8.3%,而进一步加入对象视图表示,在CASIA v1和NIST 16上的AUC分数继续提高了10.7%和7.4%。这证明了噪声和对象视图表示的有效性。而且,当缺乏对比监督,或者用ResNet50[24]代替BSFI-Net时,模型的性能会明显下降。这突出了两个流之间交互的有效性以及BSFI-Net在表征伪造伪影方面的卓越能力。

BSFI-Net中的BOB和FCU模块改善了其两个分支之间的交互性,可以有效地消除它们之间的特征偏差。当单独去除BOB或FCU时,整体模型在NIST 16数据集上的定位AUC分数分别下降4.8%和6.3%。我们进一步进行实验来研究UMDR中几个关键因素的影响,即:λloc, lom,掩码向量维数nv,以及压缩编码的类型。我们比较了三种压缩编码方法:稀疏编码[15]、离散余弦变换(DCT)[2]和主成分分析(PCA)[1]。如表6所示,当配备对比损失,采用PCA作为编码类型,λloc和Locm分别设置为1和256时,模型在NIST 16数据集上的表现最好。

5. Conclusion

在本文中,我们介绍了UnionFormer,这是一个统一学习的transformer框架,它利用来自三个不同视图的线索进行图像处理检测和定位。UnionFormer采用BSFI-Net作为特征编码器,在RGB和噪声视图下提取高度判别的特征。然后,通过三个任务的统一学习过程,UnionFormer对对象之间的不连续进行建模,即对象视图表示,并学习统一的判别表示。整合了三视图信息的统一表示具有较强的泛化性和辨别性。无论是传统的人工编辑还是基于扩散模型的自然语言驱动篡改,都能准确识别各种图像操作。此外,统一的学习框架使子任务相互增强,实现高精度的检测和定位。在各种数据集上进行的综合实验证明了该方法的有效性。

  • 22
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值