DiffForensics: Leveraging Diffusion Prior to Image Forgery Detection and Localization

CVPR' 2024

paper: https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_DiffForensics_Leveraging_Diffusion_Prior_to_Image_Forgery_Detection_and_Localization_CVPR_2024_paper.pdf

code:

Abstract

由于篡改图像可能导致对视觉内容的误解,解决图像伪造检测和定位(IFDL)问题引起了公众的严重关注。在这项工作中,我们提出了一个简单的假设,即有效的法医方法应该关注图像的细微特性。基于这一假设,本文提出了一种利用扩散模型的两阶段自监督框架,即DiffForensics。DiffForensics从自监督去噪扩散范式开始,该范式配备了编码器-解码器结构模块,通过冻结预训练的编码器(例如,在ADE-20K中)来继承一般图像特征的宏观特征,同时鼓励解码器学习图像的微观特征表示,强制整个模型关注中观表征。预训练模型作为先验,然后使用定制的边缘提示增强模块(ECEM)进一步微调IFDL任务,该模块逐步突出被操纵区域内的边界特征,从而以更高的精度细化篡改区域定位。在几个具有挑战性的公共数据集上进行的大量实验表明,与其他最先进的方法相比,所提出的方法是有效的。提出的DiffForensics可以显著提高模型的准确篡改检测和精确篡改定位能力,同时提高模型的泛化和鲁棒性。

1. Introduction

随着图像编辑工具(如GAN[24,25]和扩散模型[2,36])的快速发展,操纵图像变得越来越容易。用户可以很容易地伪造不存在或无法实现的动态图像。在政治、经济和个人隐私方面,这种伪造图像落入坏人之手所带来的风险是显而易见的。因此,识别图像伪造的对策已成为社会安全领域亟待解决的课题。

为了推动图像取证的前沿,在这项工作中,我们研究了图像伪造检测和定位(IFDL)任务,特别是改变图像语义的部分修改。一般来说,IFDL任务涉及图像级别(检测)和像素级别(定位)的二进制分类(真实与伪造)。到目前为止,最先进的技术[8、16、17、22、30、31、42、45、46]通常是建立在基于深度学习的语义分割元框架上的,该框架由两个组件组成,即编码器和解码器。编码器提取图像特征,随后由解码器进行处理以预测分类结果和伪造掩码。尽管在该领域取得了相当大的进步,但目前的SOTA检测器的性能还不足以用于野外部署,主要原因是它们在泛化、鲁棒性和检测性能方面存在不足。

受MesoNet[1]的启发,我们提出通过关注图像的细微属性来解决IFDL问题。事实上,基于伪影(例如,图像噪声)的显微分析不能应用于社交媒体环境,因为后处理将不可避免地削弱伪造痕迹。同样,在更高的语义层面(即宏观层面),人眼很难分辨伪造的图像。因此,我们建议采取中间办法。

为了实现这一目标,我们提出了一种新的两阶段自监督方法DiffForensics。训练过程从自监督去噪扩散预训练阶段开始,然后是IFDL的多任务微调阶段。在第一阶段,我们冻结了用分割任务(例如,ADE20K[44])预训练的编码器,以保留提取宏观语义特征的能力,同时鼓励解码器使用自监督去噪扩散范式学习与伪造图像相关的微观特征。通过整合上述分别针对宏观和微观特征的编码器和解码器训练方案,得到了能够学习具有细观特征表示的模型。在第二阶段,我们对预训练模型(编码器和解码器)进行微调,并在第二阶段对伪造图像进行监督。我们提出了一种边缘线索增强模块(ECEM),并将其跨多个尺度集成到解码器中,旨在突出从粗到细的篡改区域的痕迹。大量的实验表明,我们的方法在几个公共数据集上的泛化和鲁棒性性能优于几个最先进的竞争对手。

本文的主要贡献总结如下:

•我们提出了一种结合宏观特征和微观特征的两阶段学习框架,该框架由自监督去噪扩散预训练阶段和多任务微调阶段组成。据我们所知,这是探索IFDL任务的去噪扩散范式的第一个工作。

•我们提出了一种新的边缘线索增强模块,该模块集成到解码器中,用于增强从粗到细的篡改边缘痕迹。

•广泛的实验结果表明,与最先进的竞争对手相比,我们提出的方法在几个最近出现的数据集上取得了卓越的性能,包括人工篡改和人工智能生成的图像。

2. Related Work

Denoising Diffusion Probabilistic Models. 去噪扩散概率模型。去噪扩散概率模型(DDPM)主要包括两个阶段[19],即扩散过程逐步向数据中加入随机噪声,以及学习从噪声中重构所需数据样本的逆向过程。除了被广泛应用于生成模型[11],如图像生成[13,33,35,38]、图像绘制[10,36]和图像编辑[2,9],其潜在的表示学习能力也被应用于其他计算机视觉任务,如图像分割[4,6]和异常检测[41,43]。通过执行噪声估计和重建过程,去噪扩散范式可以有效地学习图像的微观噪声模式。同时,噪声分析是IFDL任务的有力解决方案之一。因此,为IFDL任务引入去噪扩散范式是有意义的。

Image Forgery Detection and Localization. 现有的大多数方法使用像素级分类来识别伪造区域[8,16,17,30,31,45,46],使用ImageNet预训练的权重作为篡改检测任务中特征提取编码器的基础。这些方法试图通过探索篡改图像的宏观特征来提高篡改图像的检测性能。然而,在处理未见过的篡改图像或未知攻击时,它们的通用性和鲁棒性可能会下降。最近的方法[5,7,18,21,22,28,40,42]旨在通过自监督学习发现更有效的篡改微特征,以提高IFDL的性能。Mantra-Net[42]和SPAN[22]设计了一个自监督学习任务来学习鲁棒图像篡改痕迹。CAT-Net[28]对JPEG图像进行双压缩检测,得到具有微观特征权值和宏观特征权值并行组合的编码器,形成双流网络,提高JPEG图像的拼接检测性能。CA-IFL[40]和Bi等人[5]分别提出了基于小波的表征学习策略,并设计了JPEG压缩操作链跟踪器进行预训练,获得具有学习JPEG压缩轨迹能力的微观特征权值,用于提高针对JPEG压缩的定位性能。Chen等[7]和Hu等[21]通过mask重建真实或篡改的人脸,RealForensics[18]比较了不同模态之间的密集连接。这些方法[7,18,21]寻求学习具有更好表示能力的微观特征,并在面对跨数据集测试时提高泛化性能。然而,从表1可以看出,在随机初始化解码器权值的同时,在编码器中保留宏特征权值或微特征权值的训练策略,并不能在IFDL任务中充分利用这两种类型的特征。

本文提出了一种新的编码器-解码器模型训练方案。对于编码器,我们利用来自语义分割任务的预训练权值并冻结它们以提取全面的宏观特征。对于解码器,我们引入了一个基于ddpm的范例来捕获复杂的微观特征。结合上述过程,引导模型关注图像的细微属性。这样的集中有利于随后的微调阶段,使模型更精确地用于IFDL任务。

3. The Proposed Method

在本节中,我们首先介绍DiffForensics的概述,如图2所示。至于架构,我们的方法包括一个编码器Eϕ和一个解码器Dθ,它们分别由两组权重ϕ和θ参数化。我们提出的框架的训练过程包括两个阶段:自监督去噪扩散预训练和多任务微调。随后的小结中会提供每个阶段的细节。

3.1. Self-supervised Denoising Diffusion Pretraining

Pipeline.  在这个阶段,我们的目标是使模型专注于图像的细微特性,它可以进一步有效地为IFDL任务进行微调。

对于编码器,我们使用来自SegFormer[44]的transformer编码器块,并应用来自语义分割任务(例如,ADE20K)的预训练权重φ∗。我们冻结权重以保留提取宏观语义特征的能力。对于解码器,我们使用Unet中常用的解码器块[37]。考虑到DDPM[19]由两个相反的过程组成,即添加噪声和反向去噪,它可以有效地学习图像的微观噪声表征。基于此,我们提出了一种基于去噪扩散的范式作为自监督的借口任务来优化θ,而不使用伪造监督。整体的训练过程如图2左侧所示,在算法1中详细说明。

具体来说,给定图像x0∈R3×h×w和时间步长t,我们通过扩散过程q(xt|xt−1)添加噪声 ϵ来破坏x0,并执行逆过程p(ϕ∗,θ)(xt−1)|xt)来估计噪声为 ϵ (ϕ∗,θ)(xt|x0) = Dθ(Eϕ(x0), t),然后去噪。通过这种方式,我们训练整个自编码器模型E∗φ◦Dθ(即冻结的编码器和可训练的解码器)以最小化重构误差目标函数如下:

通过结合上述宏观和微观表征,我们引导整个自编码器E∗ϕ◦Dθ专注于图像的细微特征。

Simplex noise. 与vanilla DDPM[19]不同的是,我们在扩散过程中加入单纯形噪声[43]而不是高斯噪声来破坏x0。如图3所示,与标准高斯扰动相比,这种噪声的潜在好处是直观的:图像的损坏更具结构化(例如,篡改区域的边缘),去噪过程将能够“修复”它们,从而促进对这种结构化异常的学习。对于单纯形噪声的超参数 ϵ ~ S(ν, N, γ),我们设置起始频率ν = 2^−6,倍频N = 6,衰减γ = 0.8。

3.2. Multi-task Fine-Tuning

Pipeline. 在预训练之后,我们用IFDL监督(即伪造标签和掩码)对数据进行预训练的自编码器(编码器和解码器)微调。根据我们的研究,多任务学习有助于学习有良好性能的更好的代表性特征。因此,我们在解码器的后一部分中添加了多任务头(即检测头和定位头),如图2的右侧所示。

Edge Cue Enhancement Module.  为了进一步挖掘篡改区域的细微痕迹,我们引入了边缘线索增强模块,用于在水平和垂直方向上增强三个尺度解码器块的输出特征上的边缘线索,如图4所示。

具体设{dk} 3k =1为每个解码器块的输出特征映射。注意dk∈Rb×c×h×w是一个四维特征向量,我们只对dk的后两个维度(即高度和宽度)进行如下处理。首先,我们计算dk中相邻行之间的差,然后取绝对值以保持梯度方向一致。这个绝对差被重新分配到当前行,增强了行方向上的边缘线索特征映射。随后,我们对增强特征的列进行相同的处理,计算相邻列之间的差值并取其绝对值,以确保梯度方向的一致性。这样,我们得到dk的边缘增强特征,记为gk。上述管道可表述为:

其中*为卷积运算,|·|为abs运算。H =[1,−1]和V =[1, −1]⊤ 分别是水平方向和垂直方向的边缘增强操作。

之后,我们计算dk和gk的差值,使用3 × 3的卷积降维,最后使用sigmoid函数将线索特征映射归一化为0-1,最后上采样到与输入图像相同的大小,得到我们的边缘预测概率图fek,可以标记为:

其中Fcov为3 × 3卷积运算,σ为sigmoid归一化,U为上采样运算,利用得到的各解码器的边缘预测概率图fek和边缘标签ye进行损失迭代。我们在dk的所有三个尺度上使用上述ECEM。

Loss function. 在我们的方法中有三种类型的监督,即定位分割监督Lseg、检测分类监督Lclf和边缘线索监督Ledg。

对于像素级的定位分割监督,我们使用加权的Lwbce和Ldice[32]的组合。

式中,λs0为分割平衡权值,加权后的分割Lwbce和Ldice 分别为:

其中,ysi,j∈{0,1}是一个像素级的二进制标签,表示{i, j}个像素是否被篡改。λs1和λs2分别为平衡篡改像素和真实像素的权值,鼓励网络更加关注那些困难的像素样本。

对于边缘监督,我们使用与上述分割监督相同的dice损失,但在这里,为了从粗粒度到细粒度逐步标准化篡改位置的边缘,概率图{f ek}3 k=1,我们设计了多尺度监督权值,旨在给细粒度边缘监督更大的权值,同时标准化粗粒度边缘监督,使f ek更好地细化为一级细粒度边缘监督f ek−1。

对于图像级检测和分类监督,为了缓解图像级数据正负样本的不平衡,我们使用加权的Lwbce。

其中yc为图像级二值标签,fc (x)为分类预测结果。由于图像级正负样本的数量很容易测量,我们自动设置篡改权值为λc0 =[ 10∗NumR / NumF +R ] /10,设置真实权值为λc1 =[10∗NumR / NumF +R ] /10,其中NumF和NumR分别表示伪造图像的数量和真实图像的数量。

最后,我们将总损失L定义为以上三种损失的加权组合,表示为:

其中,α, β ∈ [0, 1]。

4. Experiments

4.1. Experimental Setup

Dataset. 考虑到可用性和泛化性,我们选择了一些具有挑战性的基准数据集来评估我们的方法,其中CASIAv2.0[14]、FantasiticReality[26]、CASIAv1+[8]、Columbia[20]、NIST16[15]、IMD2020[34]、DSO-1[12]和Korus[27]被传统的图像编辑工具篡改,而AutoSplicing[23]和OpenForensics[29]被深度生成模型(deep generative models, DGMs)篡改。这些数据集的详细资料载于附录,不同阶段的配置详情如下:

(1) Denoising diffusion pretraining: 我们将CASIAv2.0[14]和fantastic-reality[26]的所有数据(伪造和真实)混合在一起进行自监督预训练,这一阶段不使用伪造监督。

(2) Multi-task fine-tuning: 我们还利用CASIAv2.0[14]和fantastic-reality[26]数据集及其伪造监督。请注意,我们仅将伪造图像用于fantastic-reality[26]数据集,以平衡伪造和真实像素的总数。

(3) Evaluation: 为了验证泛化性能,我们在其他图像编辑伪造数据集,即CASIAv1+ [8], Columbia [20], NIST16 [15], IMD2020 [34], DSO-1[12]和Korus[27]数据集上评估了我们的方法。我们还利用了两个最近由先进DGMs伪造的数据集,即AutoSplicing[23]和OpenForensics[29]。

Implementation details. 我们使用4块NVIDIA Tesla A100 gpu (80gb内存)在PyTorch深度学习框架上进行实验。我们为这两个阶段执行以下参数配置:

(1) Denoising diffusion pretraining: 在预训练阶段,我们将输入图像的大小调整为512×512,并应用AdamW优化器。我们将训练超参数设置为:学习率为10^−4,扩散步长T为1000,批大小为16, epoch为100。

(2) Multi-task fine-tuning:  在微调阶段,我们还将输入图像的大小调整为512×512,并应用AdamW优化器。我们将训练超参数设置为:学习率为10^−4,批大小为32,epoch为50,固定时间嵌入为t = 5(细节可以在消融实验中看到)。为了平衡伪造检测和定位的性能,我们将篡改定位Lseg和边缘监督Lseg的权值设为α = 0.8,其中Lseg中的λs0、λs1和λs2分别为0.1、2和0.5。篡改检测监督Lclf的权值β设为0.1,λc0和λc1分别为0.7和0.3。

Evaluation metrics. 对于伪造定位,我们报告了像素级F1和AUC(Area Under Curve of a Receiver-Operating-Characteristic curve)。对于伪造检测,除了图像级的ACC和AUC外,我们还报告了EER (Equal Error Rate)来评估虚警和漏检性能。对于伪造检测和定位,默认阈值是0.5,除非另有指定。

4.2. Comparison with the State-of-the-Art Methods

为了公平比较,我们将重点放在具有可用代码或预训练模型的方法上,如下所示。

(1) Pre-trained models available: 为了避免偏差,我们只包括在不同于测试数据集的数据集上训练的方法。ManTra-Net[42]是在一百万个私有数据集上进行预训练的。MVSS-Net[8]是在CASIA2数据集上预训练的。对于这些方法,我们直接使用它们的预训练模型进行评估。

(2) Code available: H-LSTM[3]、HP-FCN[30]、GSRNet[45]、SPAN[22]、SA TL-Net[46]、CA T-Net[28]、PSCCNet[31]和HiFi-Net[17]。对于这些方法,我们使用与我们相同的实验设置并使用最优超参数配置对它们进行再训练。

Localization evaluation. 表2显示了伪造定位性能。我们观察到我们的方法在所有数据集上都取得了优异的性能。值得一提的是,专为DGM伪造检测和定位而设计的HiFi-Net在DGM伪造数据集上取得了最好的F1分数。总的来说,我们提出的方法获得了最好的平均性能,证明了它的有效性。

Detection evaluation. 根据[8,31],我们使用真实图像和篡改图像的数据集对图像级分类进行了评估。表3显示了伪造检测性能。我们观察到我们的方法在所有数据集上也取得了优异的性能。总的来说,我们提出的方法获得了最佳的平均AUC、EER和次优的ACC,也证明了它的有效性。需要注意的是,对于正、负样本极度不平衡的数据集,如IMD2020[34](真实:414,篡改:2010),与阈值相关的指标无法评估整体性能。虽然我们的方法在阈值0.5时并没有显示出更好的ACC得分,但就AUC得分而言,它实现了更好的整体性能,在EER方面,它具有更好的平衡错误率。

Robustness. 我们进一步评估了面对社交媒体中常见的图像扰动时的鲁棒性,即JPEG压缩和高斯噪声。我们报告F1和AUC得分的平均值作为指标。可以看出,我们的方法在伪造定位和伪造检测任务中都表现出较好的鲁棒性。特别是在伪造定位方面,凭借宏特征和微特征的双重支持,取得了实质性的性能领先。

4.3. Ablation Study

本节分析提出的两阶段训练阶段中若干关键组成部分的有效性。

Self-supervised denoising diffusion pre-training. 在这一部分中,我们分析了扩散噪声和模型权值对去噪扩散预训练的影响。如表4所示,我们验证了不同权重组合下扩散噪声选择的性能。首先,第1行不执行DDPM预训练基线,第2行和第3行使用高斯噪声进行DDPM预训练,第4行和第5行使用单纯形噪声进行DDPM预训练。对比第2行和第3行,对比第4行和第5行,可以看出使用单纯形噪声预训练在人工篡改和综合篡改数据集上都取得了更好的效果,这表明单纯形噪声对微篡改的影响更大。对痕迹的感知学习更为明显。加载的权重也是本文的重点。通过对比第1、3、5行可以看出,本文提出的编码器宏观特征提取与解码器微观特征提取相结合的策略可以有效地提高IFDL任务的性能。通过比较第2行和第4行与其他三行,可以看出,编码器的DDPM训练可能导致对原始宏观特征的灾难性遗忘。

此外,我们用t-SNE[39]可视化展示了学习特征的嵌入空间,如图7所示。我们可以观察到,最终方案中噪声选择和编-解码器权值选择相结合,可以有效区分真实样本和篡改样本的特征分布。综合结果表明,本文提出的训练方法将具有监督权值的宏观特征与带有单纯形噪声的DDPM预训练得到的微观特征相结合,可以获得最佳的IFDL性能。

Multi-task fine-tuning. 在此,我们分析了损失函数和时间嵌入tf 的影响。

(1) Combination of loss functions: 对于Lseg和Lclf, ℓs1和ℓc1表示加权的ℓbce, ℓs2和ℓc2表示未加权的ℓbce。对于Ledg 的每个参数 (1)ℓe1:在最后一个解码器输出中加入ECEM边缘监督,权值为1。(2)ℓe2: 在所有解码器输出中加入ECEM边缘监督,但权重均为1。(3) ℓe3:本文提出的基于ECEM的多尺度加权边缘监督为粗粒度的边缘监督设置了较小的权值,为细粒度的边缘监督设置了较大的权值。通过对比表5的第1行和最后一行可以看出,多权值、多尺度边缘线索增强的监督损失不仅大大提高了篡改定位任务,而且提高了篡改检测任务的性能。对比第二行、第三行和最后行可以看出,本文针对不同粒度的尺度边缘设计了不同的加权策略,可以更好地增强不同尺度篡改区域的痕迹。最后,通过对比第4行、第5行和最后一行,分别对ℓseg和ℓclf进行加权,可以在IFDL中实现一定的性能提升。

我们还在图6中描述了一些定性结果。从左到右观察到,在多尺度边缘线索增强模块的监督下,篡改区域的位置和轮廓更加精确地被定位。同时,我们的方法也可以有效降低真实图像的虚警风险。

(2) Fixed time embedding tf : 我们使用T∈[0,1000]进行去噪扩散预训练,在多任务微调过程中采用固定时间步长tf进行训练和测试。为了优化tf以更好地表示特征,我们在t∈[0,1000]处进行网格搜索,结果总结如表6所示。观察到t越小越有利于学习篡改痕迹,因此我们使用tf = 5作为时间嵌入参数。

5. Conclusion

在这项研究中,我们提出了一种具有编码器-解码器结构的两阶段自监督方法,用于图像伪造检测和定位任务。在第一个去噪扩散预训练阶段,在分割任务上预训练的编码器被冻结,而解码器则使用自监督去噪扩散范式进行训练。它的目的是鼓励模型专注于图像的细微特性。在预训练后,我们使用监督多任务框架对预训练模型进行微调,并在解码器中引入边缘线索增强模块,将篡改痕迹从粗糙增强到精细。大量的实验结果表明,与最先进的竞争对手相比,我们提出的方法在几个新兴数据集(包括人工篡改和人工智能生成的图像)的检测和定位性能方面取得了卓越的性能。

  • 29
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值