HiFi-Net: Hierarchical Fine-Grained Image Forgery Detection and Localization

最新推荐文章于 2024-09-28 23:59:47 发布

吼吼吼哈哈哈诶诶诶

最新推荐文章于 2024-09-28 23:59:47 发布

阅读量3.9k

点赞数 35

CC 4.0 BY-SA版权

文章标签：深度学习计算机视觉图像处理

本文链接：https://blog.csdn.net/weixin_43780665/article/details/130863945

论文：https://arxiv.org/abs/2303.17111

代码：https://github.com/CHELSEA234/HiFi_IFDL

Abstract：

cnn合成域和图像编辑域生成的图像伪造属性存在较大差异，这给统一的图像伪造检测与定位(IFDL)带来了挑战。为此，我们提出了一个分层细粒度的IFDL表示学习公式。具体来说，我们首先用不同级别的多个标签表示被操纵图像的伪造属性。然后，我们使用它们之间的层次依赖关系在这些级别上执行细粒度分类。因此，鼓励算法学习不同伪造属性的综合特征和固有的层次性质，从而改进IFDL表示。我们提出的IFDL框架包含三个组成部分:多分支特征提取器、定位和分类模块。特征提取器的每个分支学习对一个级别的伪造属性进行分类，定位模块和分类模块分别对像素级的伪造区域进行分割，对图像级的伪造进行检测。最后，我们构建了一个分层的细粒度数据集，以方便我们的研究。我们在7个不同的基准上证明了我们的方法的有效性，包括IFDL和伪造属性分类任务。我们的源代码和数据集可以找到: github.com/CHELSEA234/HiFi-IFDL。

1. Introduction：

混乱和无孔不入的多媒体信息共享为错误信息的传播提供了更好的手段[1]，伪造的图像内容原则上可以维持最近的“信息流行病”[3]。首先，cnn合成的图像在最近的合成方法—Dall·E[55]或基于扩散模型(DDPM)[25]的Google ImageN[60]中取得了非凡的飞跃，甚至可以从文本中生成逼真的视频[24,63]。其次，图像编辑工具包的可用性为图像伪造或篡改(例如，拼接和绘制)提供了实质上低成本的途径。为了应对这样一个图像伪造的问题，计算机视觉界已经做出了相当大的努力，然而，它们分别分为两个方向:检测CNN合成[65,68,78]，或检测传统的图像编辑[18,27,45,67,73]。因此，这些方法在部署到现实场景时可能是无效的，在现实场景中，伪造的图像可能会从cnn合成或图像编辑域生成。

为了推动图像取证的前沿[62]，我们研究了图像篡改检测和定位问题(IFDL) -图1a -不管伪造方法领域，即cnn合成或图像编辑。由于不同的伪造方法生成的图像在不同的伪造属性上存在很大差异，因此很难对两个领域进行统一的算法开发。例如，伪造属性可以表明伪造的图像是完全合成的还是部分处理的，或者使用的伪造方法是由高斯噪声生成图像的扩散模型，或者通过泊松编辑将两幅图像拼接在一起的图像编辑过程[54]。因此，为了对如此复杂的伪造属性建模，我们首先用不同层次的多个标签来表示每个伪造图像的伪造属性。然后，我们提出了一种分层细粒度的IFDL表示，该公式要求算法利用不同伪造属性的固有层次性，在不同层次上对每张图像的细粒度伪造属性进行分类。

图2a显示了一个层次结构对伪造属性的解释，从一般的伪造属性，完全合成与部分操纵，到具体的个别伪造方法，如DDPM[25]和DDIM[64]。然后，给定输入图像，我们的方法在不同级别执行细粒度伪造属性分类(见图2b)。图像级伪造检测受益于这种层次结构，因为细粒度分类学习了综合的IFDL表示来区分各个伪造方法。此外，对于像素级定位，细粒度分类特征可以作为改进定位的先验条件。这是因为伪造区域的分布与伪造方法显著相关，如图1b所示。

在图2c中，我们利用细粒度分类中伪造属性之间的层次依赖关系。每个节点的分类概率取决于从根到自身的路径。例如，DDPM的某一节点的分类概率以伪造→完全合成→扩散→无条件→DDPM路径上所有节点的分类概率为条件。这与之前的工作[47,48,73,76]不同，后者假设属性是相互排斥的“扁平”结构。预测整个层次路径有助于从粗到细地理解伪造属性，从而捕获各个伪造属性之间的依赖关系。

为此，我们提出了层次细粒度网络(HiFi-Net)。HiFi-Net由三部分组成:多分支特征提取器、定位模块和检测模块。多分支提取器的每个分支在一个伪造属性级别上对图像进行分类。定位模块借助基于深度度量学习的目标生成伪造掩码，提高了真实像素与伪造像素的分离程度。所述分类模块首先将所述伪造掩码与所述输入图像叠加，并获得仅保留伪造像素的掩码图像。然后，我们使用部分卷积来处理掩蔽图像，这进一步有助于学习IFDL表示。

最后，为了便于我们对分层细粒度表示的研究，我们构建了一个新的数据集，称为分层细粒度(HiFi) IFDL数据集。它包含13种伪造方法，这些方法要么是最新的cnn合成方法，要么是具有代表性的图像编辑方法。HiFi-IFDL数据集还引入了伪造类别的分层结构，以便学习各种伪造属性的分类器。每个伪造的图像还与用于定位任务的高分辨率伪造GT配对。总之，我们的贡献如下:

（1）我们研究了图像编辑和cnn合成领域的图像伪造检测和定位(IFDL)任务。我们提出了一个分层细粒度的表示来学习IFDL和伪造属性分类的综合表示。

（2）我们提出了一种名为HiFi-Net的IFDL算法，该算法不仅在伪造检测和定位方面表现良好，而且可以识别多种伪造属性。

（3）我们构建了一个新的数据集(HiFi-IFDL)来促进分层细粒度的IFDL研究。在对7个基准进行评估时，我们的方法在IFDL任务上的表现优于目前最先进的SoTA，并在伪造属性分类上取得了具有竞争力的性能。

2.Related Work

Image Forgery Detection：在一般的图像伪造中，从CNN生成的图像中区分出真实图像是必须的：Zhang等[78]认为分类器很难在不同的GAN之间泛化并利用上采样伪像作为GAN检测的强鉴别器。相反，与预期相反，Wang等人[68]的工作表明，基线分类器实际上可以泛化检测不同的GAN模型，这些模型取决于对来自ProGAN的合成图像的训练[30]。另一个线索是面部伪造检测[5,8,15,17,20,29,35,39,58]及其在生物识别中的应用[4,21 - 23,26]。这些研究都集中在图像级的伪造检测上，但并不能满足在像素级识别伪造位置的需要。因此，我们同时进行图像伪造检测和定位，如表1所示。

Forgery Localization：大多数现有方法执行逐像素分类来识别伪造区域[27,67,73]，而早期的方法使用区域[81]或基于补丁的[50]方法。DeepFake Detection也采用了局部伪造的思想，通过分割面部图像中的构件[10,14,79]。Zhou等[80]通过关注目标边界伪影来改进定位。MVSS-Net[11,18]采用多层次监督来平衡敏感性和特异性。MaLP[7]表明，主动方案有利于检测和定位。虽然以前的方法仅限于一个领域，但我们的方法可以跨不同的领域进行统一。

Attribute Learning：cnn合成的图像属性可以在频域中观察到[68,78]，其中不同的GAN生成方法具有不同的高频模式。“GAN发现和属性”任务试图识别准确的生成模型[47,48,76]，而“模型解析”任务则识别模型和目标函数[6]。这些工作和我们的有两点不同。首先，先前的工作集中在数字合成方法中使用的属性(基于合成)，而我们的工作研究基于伪造的属性，即从图像编辑过程中对基于GAN的完全合成或部分操作进行分类。其次，与先前假设不同属性之间的“扁平”结构不同，我们以分层方式表示所有伪造属性，探索它们之间的依赖关系。

3.HiFi-Net

在本节中，我们将介绍HiFi-Net，如图3所示。

我们首先定义了图像伪造检测和定位(IFDL)任务和分层细粒度表示。在IFDL中，图像X∈R3×W ×H |[0,255]被映射到一个用于图像级伪造检测的二进制变量y和一个用于定位的二进制掩码M∈RW ×H |[0,1]，其中Mij表示第ij个像素是否被操纵。

在分层细粒度表示中，我们对给定的IFDL算法进行细粒度分类训练，在推理中，我们对图像级伪造检测的二值分类结果进行评价。具体地说，我们在分支b上表示一个分类变量yb，它的值取决于我们进行细粒度伪造属性分类的级别。例如，如图2b所示，级别1的两个类别为完全合成、部分操纵;2级4类分别是扩散模型、基于GAN的方法、图像编辑、基于cnn的部分操纵方法;级别3的类区分伪造方法是有条件的还是无条件的;4级的14个类是真实的，13种特定的伪造方法。我们在第4节和图6a中详细说明了这一点。

为此，我们提出了HiFi-Net(图3)，它由一个多分支特征提取器(第3.1节)组成，该提取器在不同的特定伪造属性级别上执行细粒度分类，以及两个模块(第3.2节和3.3节)，分别帮助伪造定位和检测。最后，3.4节介绍了训练过程和推理。

3.1. Multi-Branch Feature Extractor

我们首先通过颜色块和频率块提取给定输入图像的特征，该频率块对CNN特征图应用高斯拉普拉斯算子(LoG)[9]。这种架构设计类似于[49]中的方法，该方法利用了可以同时存在于RGB和频域的图像生成伪影[18,67,68,78]。

然后，我们提出了一个多分支特征提取器，其分支记为θb，其中b∈{1…4}。具体来说，每个θb生成一个特定分辨率的特征图，该特征图帮助θb进行相应级别的细粒度分类。例如，对于最精细的级别(即识别单个伪造方法)，需要对所有空间位置的内容进行建模，这需要高分辨率的特征图。

相比之下，对于最粗糙的级别(即二值)分类，使用低分辨率的特征图是合理的。

我们观察到，不同的伪造方法生成的被操纵区域具有不同的分布(图1b)和不同的模式，例如，深度伪造方法[38,58]操纵整个面部内部，而STGAN[44]改变稀疏的面部属性，如嘴和眼睛。

因此，我们将定位模块放在提取器的最高分辨率分支的末尾，该分支用于对特定的伪造方法进行分类。通过这种方式，细粒度分类的特征可以作为定位的先决条件。拥有这样的设计对于使用cnn或经典图像编辑来定位被操纵的图像是很重要的。

3.2. Localization Module

Architecture：定位模块将最高分辨率分支(θ4)(表示为F∈R512×W ×H)的特征输出映射到掩码M以对伪造进行定位。为了模拟像素在大空间区域上的依赖和相互作用，定位模块采用了自注意机制[69,77]。如图4定位模块架构所示，我们使用1×1卷积形成g、φ和ψ，将输入特征F转换为Fg = g(F)、Fφ = φ(F)和Fψ = ψ(F)。给定Fφ和Fθ，我们计算空间注意矩阵As = softmax(FTφ Fθ)。然后我们使用这个变换As将Fg映射成一个全局特征映射F0 = AsFg∈R512×W ×H。

Objective Function：像[49]一样，我们使用度量学习目标函数进行定位，这在真实像素和被操纵像素之间创建了更大的边界。我们首先学习每个像素点的特征，然后在超球中用径向决策边界对这些特征的几何形状建模。具体来说，我们首先通过平均训练集真实图像中所有像素的特征，预先计算一个参考中心c∈RD。我们用F0ij∈RD表示最终掩模预测层的第ij个像素。因此，我们的定位损失Lloc为:

这里τ是一个预先定义的边界。L中的第一项提高了真实像素的特征空间紧凑性。第二项鼓励伪造像素的分布与真实像素相差一定距离τ。请注意，我们的方法与[49,59]在两个方面有所不同:1)与[59]不同，我们使用L中的第二项来强制分离;2)与[49]中具有两个边缘的图像级损失相比，我们研究更具挑战性的像素级学习。因此，我们使用单个边距，这减少了超参数的数量并提高了简单性。

3.3. Classification Module

Partial Convolution：与先前最终目标是定位伪造掩码的工作[18,27,67]不同，我们重用伪造掩码来帮助HiFi-Net学习对细粒度伪造属性进行分类的最佳特征。具体来说，我们生成一个二进制掩码M，然后将M与输入图像叠加为X ?M获取掩码图像Xmask∈R3×W0×H0。为了处理被遮挡的图像，我们采用部分卷积算子(PConv)[42]，其卷积核被重新规范化，仅应用于未被遮挡的像素。这个想法是让特征图只描述被操纵区域的像素。PConv作为每个核的条件点积，以掩码为条件。将Wpar表示为卷积核，我们有:

在不同的层，我们根据下式更新和传播新掩码M0:

具体来说，Xmask代表了最突出的伪造图像区域。我们相信Xmask的特性可以作为HiFi-Net的先验，以更好地了解各个伪造方法的属性。例如，观察伪造是发生在眉毛还是整个面部，有助于确定给定图像是由STGAN[44]还是FaceShifter[38]处理的。定位部分仅使用两个轻量级的部分卷积层来实现，以提高效率。

Hierarchical Path Prediction：我们打算学习不同伪造属性之间的层次依赖关系。给定图像X，我们将分支θb的输出对数和预测概率分别表示为θb(X)和p(yb|X)。然后，我们有:

在计算分支θb处的概率p(yb|X)之前，我们基于之前的分支概率p(yb−1|X)缩放θb(X)。然后，我们强制该算法学习分层依赖关系。具体而言，在Eq.(4)中，我们按照分层结构，对b级分支的所有logits输出重复粗级b−1的概率。图5显示，根据分层树结构，与预测DDPM或DDIM相关的logits乘以最后一层图像为无条件(扩散)的概率。

3.4. Training and Inference

在训练中，每个分支都朝着相应层次的分类进行优化，我们对4个分支使用4个分类损失，L1cls, L2cls, L3cls和L4cls。在分支b处，Lbcls是p(yb|X)与一个GT (yb)之间的交叉熵距离。该体系结构是端到端的，每层的学习率不同。具体目标函数为:

其中X为输入图像。当输入图像被标记为“真实”时，我们只应用最后一个分支(θ4)损失函数，否则我们使用所有分支。λ是使Lloc保持在合理幅度的超参数。

在推理中，HiFi-Net从定位模块中生成伪造掩码，并对不同级别的伪造属性进行预测。我们使用级别4的输出概率进行伪造属性分类。对于二元“伪造与真实”分类，如果最高概率落在级别4的任何操作方法中，我们预测为伪造。

4. Hierarchical Fine-grained IFDL dataset

我们构建了一个细粒度的分层基准，命名为HiFi-IFDL，以方便我们的研究。HiFi-IFDL包含了一些最新和最具代表性的伪造方法，原因有二:1)图像合成发展到更先进的时代，人工制品在最近的伪造方法中变得不那么突出;2)不可能包括所有可能的生成方法类别，如VAE[34]和人脸变形[61]。因此，我们只收集研究最多的伪造类型(即，拼接)和最新的生成方法(即，DDPM)。

具体来说，HiFi-IFDL包括从基于cnn的操作到图像编辑的13种伪造方法生成的图像，如图6a所示。每种伪造方法都会生成10万张图像。对于真实图像，我们从6个数据集(例如，FFHQ [33]， AFHQ [12]， CelebaHQ [37]， Youtube face [58]， MSCOCO[41]和LSUN[75])中选择它们。我们要么取整个真实图像数据集，要么选择10万张图像。训练集、验证集和测试集分别有1710k、15K和174K图像。虽然有不同的方法来设计伪造层次结构，但我们的层次结构从被伪造图像的根源开始，然后，每层都变得越来越具体，以到达实际的生成器。我们的工作研究了分层表示对IFDL的影响。虽然可能有不同的层次结构定义，但这超出了本文的范围。

5. Experiments

我们在7个数据集上评估了图像伪造检测/定位(IFDL)，并在HiFi-IFDL数据集上评估了图像伪造属性分类。我们的方法是在PyTorch上实现的，训练了40万次迭代，批处理大小为16，有8张真实图像和8张伪造图像。详情见附录。

5.1. Image Forgery Detection and Localization

5.1.1 HiFi-IFDL Dataset

表2报告了HiFi-IFDL数据集上的不同模型性能，其中我们使用AUC和F1分数作为图像级伪造检测和像素级定位的指标。具体而言，在表2a中，我们首先观察到预训练的cnn检测器[68]表现不佳，因为它是在GAN生成的图像上训练的，与扩散模型处理的图像不同。这种差异可以在图2c中看到，在图2c中，我们通过对不同伪造方法生成的图像应用高通滤波器[68]，将频域伪影可视化。在[13,56,68,78]中也采用了类似的可视化方法。然后，我们在HiFi-IFDL上训练了两种之前的方法，它们的表现也比我们的模型差:CNN-detector使用普通的ResNet50，但我们的模型是专门为图像取证设计的。双分支算法利用LSTM对视频进行深度伪造，在图像编辑领域检测伪造效果较差。Attention Xception[65]和PSCC[45]分别被提出用于面部图像伪造和图像编辑领域。这两种方法的AUC分别比我们差9.3%和3.6%。我们认为这是因为我们的方法可以利用定位结果来帮助图像级检测。

在表2b中，我们比较了之前可以进行伪造定位的方法。具体来说，预训练的OSN-detector[74]和CatNet[36]在HiFi-IFDL数据集中的cnn合成图像上不能很好地工作，因为它们只是在经过编辑方法处理的图像上训练模型。然后，我们使用HiFi-IFDL数据集来训练CatNet，但它的性能仍然比我们的差:CatNet使用DCT流来帮助定位拼接和复制移动区域;但是HiFi-IFDL包含更多的伪造类型(例如，油漆)。同时，由于伪造区域的统计数据和模式与不同的伪造方法有关，因此准确的分类性能进一步有助于定位。例如，对于伪造定位，我们实现了比PSCC高2.6%的AUC和高2.0%的F1。此外，与PSCC中提出的多级定位方案相比，我们的分层细粒度方案学习了更全面的伪造定位特征。

5.1.2 Image Editing Datasets

表3报告了图像编辑域的IFDL结果。我们评估了5个数据集:Columbia[51]、Coverage[71]、CASIA[19]、NIST16[2]和IMD20[53]。根据之前的实验设置[18,27,45,67,73]，我们在我们提出的HiFi-IFDL上预训练模型，然后在NIST16, Coverage和CASIA上微调预训练模型。我们还报告了在与[45]相同的数据集上预训练的HiFiNet的性能。表3a报告了预训练模型的性能，其中我们的方法达到了最好的平均性能。ObjectFormer[67]采用强大的基于transformer的架构，专门从事图像编辑领域的伪造检测。然而，它的表现与我们不相上下。在微调阶段，我们的方法在平均AUC和F1上都达到了最佳性能。具体来说，我们只落后于NIST16，其中AUC趋于饱和。我们还在表3c中报告了图像级伪造检测结果，其结果与ObjectFormer[67]相当。我们在图7中展示了定性结果，其中通过我们的方法识别的操作区域可以捕获语义上有意义的对象形状，例如老虎和松鼠的形状。最后，我们还在补充的表2中提供了鲁棒性评估，显示了我们对各种图像变换的性能。

5.1.3 Diverse Fake Face Dataset

我们在多样化假脸数据集(DFFD)上评估了我们的方法[65]。为了公平比较，我们遵循相同的实验设置和指标:IoU和像素级二进制分类精度(PBCA)用于像素级定位，AUC和PBCA用于图像级检测。表4报告了我们的方法在检测和局部处理图像的最佳定位性能上具有竞争力的性能。更多结果见附录。

5.2. Ablation Study

在表5的第1行和第2行中，我们首先将Lloc和Lcls去除，它们分别导致检测(24.1% F1)和定位(29.3% AUC)的性能下降。此外，去除Lcls会损害1.9%的AUC和F1定位。这表明细粒度分类改进了定位，因为细粒度分类特征是定位的先验条件。我们评估了在不同层次级别执行细粒度分类的有效性。在第3行，我们只在训练中保留了第4级细粒度分类，这导致检测性能(3.7% AUC)和定位性能(2.8% AUC)明显下降。在第4行中，我们执行细粒度分类，而不强迫Eq. 4的层之间的依赖关系。这损害了分层伪造属性的学习，并导致检测中的AUC下降3.6%。最后，我们删除了第5行的PConv，使模型的检测效率降低。

5.3. Forgery Attribute performance

我们在4个不同的级别上对真实图像和13个伪造类别进行细粒度分类，其中最具挑战性的场景是第4级的细粒度分类。结果如表8a所示。具体来说，我们训练了HiFi-Net 4次，每次只在一个级别上对细粒度伪造属性进行分类，表示为基线。然后，我们通过Eq. 4训练HiFi-Net对所有4个级别进行分类，但没有分层依赖，表示为多尺度。此外，我们比较了预训练的图像属性工作[6,76]。此外，在图8b中可以观察到，我们在3种情况下失败:1)一些真实图像有水印、极端光照和失真。2)绘制的图像有小的伪造区域。3) styleGANv2-ada[31]和styleGAN3[32]可以生成高度相似的图像。图9为失败案例。