PSCC-Net: Progressive Spatio-Channel Correlation Network for Image Manipulation Detection and Localization
发布于IEEE Transactions on Circuits and Systems for Video Technology 2021
论文链接:https://arxiv.org/pdf/2103.10596v2.pdf
一作开源代码:https://github.com/proteus1991/pscc-net
摘要
开发了一种渐进式空间通道相关网络 (PSCC-Net) 对图像篡改进行检测和定位。
PSCC-Net以双路径过程处理图像:
- 自上而下的路径:提取局部和全局特征。
- 自下而上的路径:检测输入图像是否被篡改,并以多个比例估计其mask,其中每个mask都以前一个为条件。
与传统的encoder-decoder和no-pooling结构不同,PSCC-Net利用具有密集交叉连接的不同尺度的特征以从粗到细的方式产生操纵掩模。空间信道相关模块(SCCM)捕获自底向上路径中的空间和信道相关性,赋予特征整体线索,使网络能够应对广泛的操纵攻击。SCCM避免了使用大量注释数据对特征提取器进行预训练; 连续实现了图像处理、检测和定位的SoTA结果。由于重量轻的主干和渐进式机制,PSCC-Net可以以50+FPS的速度处理1080p图像。 大量的实验表明,PSCC-Net在检测和定位方面都优于现有的方法。
引言
通常,图像处理由内容相关过程和与内容无关过程组成。
内容相关过程:拼接、复制移动和移除。通常,内容相关过程遵循目标图像中的语义安排。
内容无关过程:包括全局修改,例如亮度/对比度变化,模糊,噪声和图像压缩。它们几乎不会产生任何虚假信息,但是它们产生的噪声可能会破坏对图像/相机轨迹的分析,并可能隐藏被操纵区域和原始区域之间的差异。
IMDL三个主要未解决的问题:
- 规模变化:伪造区域大小不一。大多数先前的工作都忽略了尺度变化的重要性,并且在检测不同尺寸的伪造区域时遇到困难。传统的encoder-decoder和no-pooling结构都难以联合利用局部和全局特征,因此只能处理有限的尺度变化。
- 图像相关性:与原始区域相比,可以最好地确定被操纵的区域,尤其是对于拼接攻击。 从操纵图像到操纵mask映射的简单学习可能导致训练中对特定攻击类型的过拟合。 相比之下,考虑图像的空间相关性可以得到更广义的定位解决方案。 然而,这种相关性在以往的研究中大多被忽略。
- 检测:现有的大多数研究都假设在所有输入图像中都存在操纵。 因此,这会在原始图像上造成许多虚警(把真实的图像检测为篡改),使检测变得不可靠。
为了解决上述问题,本文提出了一种新的渐进空间信道相关网络(PSCC-NET),如图2所示。
由检测头预测的检测分数指示输入是否被操纵。 从mask-4到mask-1的操作定位精度逐渐提高,例如,mask-4的预测混淆了粘贴(伪造)区域和原始(复制)区域,而mask-1有效地修复了粘贴(伪造)区域。
PSCC-Net由一个自顶向下的路径和一个自底向上的路径组成。 在自上而下的路径中,骨干编码器首先从输入图像中提取局部和全局特征,其不同尺度之间的紧密联系促进了信息的交换。 在自底向上的路径中,我们利用学习到的特征从小尺度到大尺度估计4个操纵掩码,其中每个掩码作为下尺度估计的先验信息。 由于这样的设计,最终的mask是以一种从粗到细的方式估计的,收获了本地和全局的信息。 如果中间掩码令人满意,则通过终止自下而上的掩码估计,该设计实现了潜在的加速。 此外,我们不是研究预测的操纵mask的响应,而是将学习到的特征输入检测头,以产生二分分类的分数。
为了利用图像相关性,我们提出了一个空间通道关联模块(SCCM),该模块在每个自下而上的步骤中同时掌握空间关联和通道关联。空间相关性在局部特征之间聚合全局上下文。由于来自不同信道的响应可能与同一类(例如,操纵的或原始的)相关,信道相关性计算特征映射之间的相似性,以增强感兴趣区域的表示。考虑到编码器的轻量级设计,PSCC-Net可以以50+FPS的速度处理1080P。
相关
图像的篡改检测分为隐式检测和显式检测。
- 隐式检测:说明了图像整体篡改的概率
- 显式检测:说明逐像素篡改的概率
由于只考虑局部区域的相关性,因此Mantra-Net和SPAN未能充分利用空间相关性,推广性有限。 在这项工作中,我们的PSCC-Net利用一种渐进机制来改进多尺度特征表示和SCCM模块,以更好地探索空间和信道相关性。
PSCC-NET
与图像级检测相比,像素级定位更加困难。 因此,PSCC-NET特别重视解决定位问题。 事实上,由于用于检测和定位