【论文笔记】ManTra-Net:Manipulation Tracing Network For Detection And Localization of Image Forgeries With

ManTra-Net: Manipulation Tracing Network For Detection And Localization of Image Forgeries With Anomalous Features

论文链接:https://openaccess.thecvf.com/content_CVPR_2019/papers/Wu_ManTra-Net_Manipulation_Tracing_Network_for_Detection_and_Localization_of_Image_CVPR_2019_paper.pdf

源码链接:https://github.com/ISICV/ManTraNet

摘要

本文提出了一个不需要额外的预处理和后处理的、端到端的篡改检测网络ManTra-Net。ManTra-Net是一个完全卷积的网络,可以处理任意大小的图像和许多已知的伪造类型,如拼接、复制移动、删除、增强,甚至未知类型。主要的贡献在于用一个自监督学习的方式从385种篡改类型中学习特征。并且将篡改定位问题当做一个局部异常点检测问题来解决,使用Z-score特征捕获局部异常,使用LSTM方法进行评估。大量实验结果表明,Mantra-Net不仅在单一类型的操纵/伪造中,而且在复杂的组合中都具有推广性、鲁棒性和优越性。

引言

拼接、复制移动、移除、增强是研究的最多的。移除选定的图像区域 (例如隐藏对象),并用从背景估计的新像素值填充空间。图像增强是局部操作的广泛集合,例如锐化,亮度调整等。

根据伪造的特征,可以使用不同的线索作为检测/定位的基础。这些线索包括JPEG压缩伪影,边缘不一致,噪声模式,颜色一致性,视觉相似性,EXIF一致性和相机模型。然而,现实生活中的伪造更为复杂,如图1所示,恶意伪造者通常使用一系列操作来隐藏伪造,包括最新技术,例如基于深度神经网络 (DNN) 的面部交换,如图1-© 所示。这迫使我们开发新的统一伪造检测技术,该技术不限于一种或几种已知的操纵类型,而是能够处理更复杂和/或未知的类型
在这里插入图片描述
一个经常被忽视的问题是伪造区域定位。 现有的大多数方法只关注图像级的检测——图像是否是伪造的。 此外,提供定位能力的方法通常依赖于繁重的、耗时的前和/或后处理,例如,补丁提取、期望最大化、特征聚类、分割等。最后,特征学习和伪造掩码生成之间的脱节暗示了未优化的伪造检测和定位方法。

在本文中,我们解决了上述问题,并提出了一种称为ManTra-Net的新颖解决方案,用于广义图像伪造定位/检测(IFLD)。它通过识别局部异常特征来检测伪造像素,因此不限于特定的伪造或篡改类型。这是一个端到端的解决方案,因此无需应用预处理和/或后处理。它也由所有可训练的模块组成,因此可以针对IFLD任务共同优化所有模块。

篡改检测网络

相关工作

下表1是近期IFLD方法综述。 非DNN方法标记为N/A, 仅检测方法标记为-,PP代表前/后处理。
在这里插入图片描述

提出的模型

如图2所示,该方法由两个子网络组成,即图像操纵轨迹特征提取器局部异常检测网络(LADN),前者用于生成统一的特征表示,后者用于直接定位伪造区域,无需后处理。
在这里插入图片描述

主要贡献

  • 重新设计了图像处理跟踪特征,使其能够区分385种已知的操作类型,并且对未知类型的操作进行编码,即使是那些基于 DNN 的操作(例如深度图像修补)和顺序操作(例如增强,调整大小和连续压缩)。实验结果表明,该特征适用于 IFLD 任务,可以有效地学习自监督学习任务-图像操作分类(IMC)。
  • 我们摒弃了常见的语义分割方法,而将IFLD任务描述为局部异常检测问题,以提高模型的泛化能力。 更准确地说,我们希望从局部特征和它对伪造标签的引用之间的差异来学习决策函数映射。
  • 进行消融实验以系统地优化IMC和LADN架构,并提供理论基础和/或实验结果来支持我们的网络设计。

操纵轨迹特征

在这里插入图片描述
通过图像处理分类问题来研究图像操纵轨迹特征提取器。系统地研究了更多类型和更细差异的手法,共有385种手法类型。这是第一个考虑大量细粒度操作类型。

Backbone网络结构的研究

对三个网络——VGG、Resnet和DNCNN进行Backbone的比较。

为了公平的比较,我们定制主干模型具有相同的感受野大小,以及相似数量的过滤器和超参数(见表2)。 值得注意的是,所有列出的操纵分类模型都是全卷积网络(FCN)(即没有下采样或密集层)。

为了加快训练速度并为多个模型提供训练,我们研究了简单的IMC-7问题,即对压缩、模糊、形态学、对比度处理、加性噪声、重采样和量化七个通用处理族的分类。 具体地说,我们用三个模型来训练每个体系结构,但在表2的下半部分中只报告了验证损失最好的模型。 事实证明,这三种架构都实现了相似的IMC-7性能。 然而,VGG在训练和验证之间的差距更小,但在KCMI测试中的准确性更高,从而优于其他测试。 因此,我们在余下的研究中使用了VGG架构
在这里插入图片描述
我们还研究了第一层的特征选择。 我们将SRMConv2D和BayarConv2D的已知最优设置与经典的Conv2D层以及这三个层的组合版本进行了比较。事实证明,不同的特性类型在IMC-7性能上有很小的差异,通常为1%到2%,而使用组合设置可以获得最好的性能。 因此,我们将组合的特征用于第一卷积层
在这里插入图片描述

细粒度操作类型的研究

逐步分解七个操纵族,直到它们是单独的算法为止。

本研究中的所有IMC模型都共享前面讨论的相同VGG网络架构,除了决策块中输出类别的数量外。 表4中列出了它们的得分。由于预定义了层次结构图,因此在层次结构i上训练的IMC还可用于预测i> j的层次结构j的标签。下表中所有带下划线的分数均以这种方式获得。 显然,细粒度的操作类不仅有助于提高较低层次结构的验证准确性,而且还有助于将KCMI准确性从57.2%提高到82.6%。
在这里插入图片描述
IMC-385验证准确性(47.3%)相对较低。 因此,我们在两个正交方向上调整基线IMC-VGG体系结构:

  1. 使它更宽,即在每个卷积层中使用更多的滤波器
  2. 使它更深,即使用更多的卷积块

表5显示了这些结果。
在这里插入图片描述

讨论

如果使用较大的感受野尺寸,则可以进一步提高IMC性能。这里为确保特征对小操作区域的敏感性,坚持使用IMC-VGG-W&D体系结构。图 3-(a)说明了在层次1(有25个类)上的IMC-VGG-W&D混淆矩阵。 它非常接近单位矩阵,因此大多数IMC-385错误发生在同一类型的操作中,但参数不同。 实际上,混淆矩阵中唯一显著的错误是将JPEGCompression错误地分类为JPEGDoubleCompression,这可能是因为Dresden数据集中的大多数原始图像都是JPEG格式的,这表明它们已经被压缩了。

尽管KCMI测试结果证实了学习到的操作痕迹特征的一般性,但我们再次检查了IFLD任务的特征有效性。如图(b)所示,可以很容易地识别出I​​MC成员关系图和ground-truth之间的对应关系,这表明(1)所提出的IMC特征对于IFLD任务很有用;(2)通过识别与周围环境不同的异常局部特征,可以轻松识别伪造区域。

局部异常检测网络

在这里插入图片描述
如图2所示,该算法由三个阶段组成:

  • 自适应,将操作轨迹特征适应于异常检测任务;
  • 异常特征提取,受人类思维启发,提取异常特征;
  • 决策,该决策全面考虑异常特征并对像素是否伪造进行分类。由于适应和决策阶段都是直截了当的,因此我们集中讨论异常特征提取。

异常特征提取

给定一个特征图,人类如何识别潜在的伪造区域。本文以这种方式来判断:首先可以识别图像的主要特征,因此与该主要特征充分不同的任何特征都是异常的。

两个关键任务:

  • 什么是主要特征,以及如何计算它;
  • 如何量化局部特征与参考主导特征之间的差异,以及在实践中最好的方法是什么。

用公式(1)定义的平均特征作为主导特征:
在这里插入图片描述
其中 F 是大小为 H×W×L 的原始特征张量。同样,可以使用等式(2)中的原始差异量化局部特征与其参考之间的差异:
在这里插入图片描述
考虑到通用性,公式(3)中定义的归一化Z分数效果更好,(见表6)
在这里插入图片描述
其中 σ F是如公式 (4) 所示的标准偏差。
在这里插入图片描述
在实践中,我们将 σF 替换为 σ* F,如等式 (5)所示。
在这里插入图片描述
其中,ν = 1e-5,w σ 是长度与 σ f相同的可学习的非负权重向量。

特征 ZF 对每个局部特征与主要特征的差异进行编码,但是,当一张图片同时存在两个篡改区域时,其中一个篡改区域对计算平均值的影响,可能导致无法识别出另一个篡改区域

一个快速的解决方法:从一个局部但足够大的窗口计算参考特征,这减轻了来自其他伪造区域的特征的影响。具体来说,我们计算窗口偏差特征:
在这里插入图片描述

在这里插入图片描述
通过使用convlstm2d层,提出的异常检测网络按顺序分析属于不同窗口大小的Z得分偏差。 换句话说,如果我们不确定,我们会研究细粒度的ZScore映射,因此在概念上遵循从远到近的分析。

异常检测消融实验

在这里插入图片描述

实验评价

在这一节中,重点评估端到端的ManTra-Net关于泛化性、敏感性、对后处理的鲁棒性和标准基准的性能。

使用AUC作为度量。由于局部异常检测的性质,如果原始像素是少数,则ManTra-Net将标记为伪造像素 。因此,当超过50%的像素被伪造时,我们否定了ManTra-Net预测的掩模。

预训练和泛化测试

我们使用四个合成数据集以端到端的方式训练 ManTra-Net 模型。预训练的 ManTra-Net 模型可在 https://github.com/ISICV/ManTraNet.git 获得。

从表7中可以看出,用完全随机权重训练的完全随机模型由于过度拟合合成数据而不能很好地概括,而在使用的合成数据集中呈现的伪造线索与现实世界中非常不同。通过冻结图像操纵跟踪特征 (IMTF) 并具有随机LADN权重训练的半冻结模型确实可以防止过度拟合,但消除了为其他伪造类型找到更好特征的希望,因为已知操纵-跟踪功能对增强数据集进行了优化 (请参阅表6中的增强列),但对拼接,复制-移动或删除没有优化。相比之下,允许以5e-5的较低学习率更新这些权重的半随机模型可以防止过度拟合,并收敛到所有伪造类型的更好特征表示。因此,我们在以后的实验中使用ManTra-Net半随机模型
在这里插入图片描述

敏感性和鲁棒性评估

如图 4-(a) 所示,ManTra-Net 对加性噪声和模糊方法非常准确,即使对于像 3×3 GaussianBlur 这样的微妙操作,而压缩方法的准确性较低,尤其是当品质因数高于 95 时。
在这里插入图片描述
考虑了三种常见的后处理方法:(1) 将 X 调整为较小的尺寸,(2) 以较低的质量因子压缩 X,以及 (3) 在伪造区域的边缘周围平滑 X。我们没有使用来自四个合成数据集的原始测试样本,而是将经过预训练的 ManTra-Net 与后处理版本一起输入,并计算测试性能衰减。这些结果如图 4-(b) 所示。 ManTra-Net 的整体性能对于 LinearResize 和 JPEGCompress 几乎呈线性下降,这比调整大小的二次像素减少率要慢得多。最后,虽然已知局部模糊在欺骗基于边缘的伪造检测方法方面非常有效,但 ManTra-Net 对此类攻击完全免疫。

与 SOTA 方法的比较

  • 使用预先训练的模型而不是微调的模型
  • 评估完整数据集上的性能,而不是小的测试拆分

表8为性能比较
在这里插入图片描述
Man-Tra Net在NIST和Clumbia数据集上的性能次于RGB-N,排第2。在 NIST 数据集中发现了 ManTra-Net 与 RGB-N 方法之间的巨大性能差距,这可能是因为该数据集包含许多从完全相同或非常相似的基础图像伪造的样本——微调肯定会有所帮助。在 Columbia 数据集上,我们略微落后于最佳方法 RGB-N 3%,因为我们不依赖任何特定线索。 RGB-N 方法明确地分析了噪声模式,已知这对哥伦比亚数据集非常有效。

然而,在 COVERAGE 和 CASIA 数据集上,我们在更大的评估部分上取得了比 J-LSTM 和 RGB-N 方法更好的性能,这两种方法都应用了数据集微调。我们表现​​更好的一个可能解释是这些数据集中的图像比 NIST 和 Columbia 中的图像小得多(例如,典型的 CASIA 图像大小为 256×384,而在 NIST 中常见的图像大于 1000×1000 ),并且更接近我们在训练中使用的图像尺寸,即 256×256。

可以肯定地得出结论,ManTra-Net:

  • 明显优于那些经典的无监督方法
  • 与那些最先进的 DNN 方法相当,即使我们没有应用任何模型微调或后处理
  • 所提出的 ManTra-Net 在所有测试数据集上都实现了非常一致的性能,这表明它在不同数据集上的泛化能力很好。

定性结果如图 5 所示。
在这里插入图片描述

缺陷

ManTra-Net在以下情况下可能会失败 :

  • 伪造的图像被完全再生 (例如使用样式转移),见图6-(a)。
  • 伪造的图像被高度相关的噪声故意污染,参见图6(b)。
  • 多个区域被不同地操纵,参见图6-©。如图6-© 所示,文本区域和袋熊区域都被操纵。ManTra-Net可以找到文本区域,但不能找到袋熊区域。我们发现一种快速的补救措施是在应用ManTra-Net之前要求用户选择感兴趣的区域,这次我们成功地抓住了袋熊。这表明ManTra-Net可以成为人类的计算机辅助IFLD工具。
    在这里插入图片描述

总结

在本文中,我们介绍了一种新颖的端到端DNN解决方案,称为ManTra-Net,用于图像伪造定位。它首先为测试图像提取图像操作跟踪特征,并通过评估局部特征与其参考特征的不同来识别异常区域。我们仅使用预先训练的模型进行的广泛实验结果表明,所提出的ManTra-Net对细微的操作敏感,并且对后处理伪装操作具有鲁棒性,并且对看不见的数据和未知的操作类型具有良好的通用性,即使对于那些最新的基于DNN的操作,如面部交换和深度图像修复。通过简单地向IMC任务引入更多操作类型和/或向端到端IFLD任务添加更多训练样本,可以进一步改善ManTra-Net性能或使其适应新的伪造类型。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值