分层细粒度图像伪造检测与定位
CVPR2023
https://github.com/CHELSEA234/HiFi-IFDL
Abstract
CNN合成域和图像编辑域生成的图像的伪造属性差异很大,这种差异使得统一的图像伪造检测与定位(IFDL)具有挑战性。
提出了一个用于IFDL表示学习的层次化的粒度公式。 具体来说,我们将在不同的级别上用多个标签来表示被操纵图像的伪造属性。 然后,我们使用它们之间的层次依赖性在这些级别上执行细粒度的分类。 因此,该算法既能学习不同伪造属性的综合特征,又能学习不同伪造属性的内在层次性,从而改进了IFDL表示。 我们提出的IFDL框架包含三个部分:多分支特征提取器、定位和分类模块。 特征提取器的每个分支学习在一个层次上对伪造属性进行分类,而定位和分类模块分别分割像素级伪造区域和检测图像级伪造。
构造了一个层次化的数据集。 我们在7个不同的基准上证明了我们的方法的有效性,在IFDL和伪造属性分类任务中都是如此。
Introduction
图1(a)研究了图像伪造检测与定位问题(IFDL),不考虑伪造方法域,即是CNN合成还是图像编辑。 由于采用不同伪造方法生成的图像在不同的伪造属性方面存在很大差异,因此开发一个统一的算法对这两个领域来说是一个具有挑战性的问题。 例如,伪造属性可以指示伪造图像是完全合成还是部分操纵,或者所使用的伪造方法是从高斯噪声产生图片的扩散模型,还是通过泊松编辑拼接两个图像的图像编辑过程。 因此,为了对这类复杂的伪造属性进行建模,我们首先用多个不同层次的标签表示每个伪造图像的伪造属性。 在此基础上,我们提出了一种层次化的IFDL算法,该算法利用不同伪造属性内在的层次性,在不同的层次上对每一幅图像的精细伪造属性进行分类。
图1(b)伪造区域的分布取决于个别的伪造方法。每个颜色代表一个伪造类别(x轴)。每个气泡表示一个图像伪造数据集。y轴为伪造面积的平均值。气泡的面积与伪造面积的方差成正比。
图2(a)给出了对伪造属性的层次解释,从一般的伪造属性,完全合成vs部分操纵,到特定的个体伪造方法,如DDPM和DDIM。然后,给定一个输入图像,我们的方法在不同的级别上进行细粒度的伪造属性分类(见图2(b)。图像级伪造检测受益于这种层次结构,因为细粒度分类学习综合的IFDL表示,以区分单个伪造方法。此外,对于像素级的定位,细粒度的分类特征可以作为提高定位的先决条件。这是成立的,因为伪造区域的分布与伪造方法显著相关,如图1(b)所示。
(a)我们用不同级别的多个标签来表示每个被篡改图像的伪造属性。(b)对于输入图像,我们鼓励算法对其细粒度伪造属性进行不同级别的分类,即在级别1上进行2-way分类(完全合成或部分操纵)。©我们通过不同伪造属性的层次性质进行细粒度分类,其中每个深度l节点的分类概率取决于深度(l−1)处邻居节点的分类概率。Sy:全合成;Pa.Ma:部分操纵;Diff:扩散模型;Cond:条件式;Uncond:无条件的。
在图2©中,我们利用了细粒度分类中伪造属性之间的层次依赖性。每个节点的分类概率取决于从根到自身的路径。例如,DDPM中某一节点的分类概率是由伪造→完全合成→扩散→无条件→DDPM路径中所有节点的分类概率决定的。这与之前的研究不同,之前的研究假设了一个“扁平”结构,其中属性是相互排斥的。预测整个层次路径有助于从粗到细理解伪造属性,从而捕获单个伪造属性之间的依赖关系。
为此,我们提出分级细粒度网络(HiFi-Net)。HiFi-Net由三部分组成:多分支特征提取器、定位模块和检测模块。多分支提取器的每个分支在一个伪造属性级别对图像进行分类。定位模块通过基于深度度量学习的目标生成伪造掩模,提高了真实和伪造像素