CFL-Net:使用对比学习的图像伪造定位
源码链接:https://github.com/niloy193/CFLNet
摘要
传统的伪造定位方法的缺点是过度拟合和只关注少数特定的伪造痕迹。我们需要一种更通用的图像伪造定位方法,能够很好地适应各种伪造条件。底层伪造区域定位的一个关键假设是,无论伪造类型如何,每个伪造图像样本中未被篡改和被篡改区域的特征分布都存在差异。在本文中,我们的目标是利用这种差异特征分布来帮助图像伪造定位。具体来说,我们使用对比损耗来学习映射到一个特征空间,在该空间中,每个图像的未篡改区域和被篡改区域之间的特征被很好地分离。此外,该方法不需要对伪造类型进行任何先验知识或假设,就可以对伪造区域进行局部定位。我们证明,我们的工作优于几个现有的方法在三个基准的图像处理数据集。
引言
方法的提出
通用的图像伪造检测或定位方法通常依靠不同的伪造线索或伪造操作留下的足迹,如JPEG伪影、边缘不一致、噪声模式、相机模型、EXIF不一致等,来检测或定位伪造。然而,训练模型专注于特定的伪造线索有一个主要的缺点:只有当特定的伪造足迹在伪造的图像中显著时,模型才能检测到伪造。这是不可接受的,因为在现实生活中,不同的操作技术会留下各种各样的伪造线索。因此,专注于特定的伪造线索并不是最佳选择。例如,如果一种方法侧重于边缘不一致来检测伪造,那么该方法就不能很好地检测伪造图像,因为在伪造图像中,未被篡改和被篡改区域之间的边界是平滑的。同样,如果一种方法专注于重采样特征,那么如果一幅图像在未被篡改和被篡改的区域多次应用相同的JPEG压缩,它将很难检测出伪造。
现有方法的另一个主要缺点是:这些方法使用交叉熵损失,没有附加的训练约束。传统的基于交叉熵的方法假设每个类别内的所有实例在特征分布上应该接近。这忽略了每个样本的独特信息。因此,交叉熵损失鼓励模型对同一类别提取相似特征。这可能有助于对Imagenet或cityscape等数据集进行分类或分割,在这些数据集中,相同类别的对象应该具有类似的特征。然而,在图像伪造定位中,由于不同的操作会在被篡改区域留下不同的伪造足迹,因此对数据集中所有被篡改区域提取相似的特征并不是最优的。因此,在没有附加约束的情况下,一个常见的基于交叉熵损失的框架容易对特定的伪造模式进行过拟合,这不利于泛化。
考虑到这些局限性,我们在最近提出的对比损失的基础上,提出了一种新的伪造定位方法,称为对比伪造定位网络或CFL-Net。我们的方法依赖于底层伪造区域定位的一般假设,即无论伪造类型如何,未被篡改区域和被篡改区域之间的特征统计量仍存在差异,即颜色、强度、噪声等。在本文中,我们着重于利用特征空间中的这种差异,通过对比损失来帮助图像伪造定位。具体来说,我们的模型学习映射到一个