发布于ICCV2021
摘要
TransForensics框架的两个主要组件是密集self-attention编码器和密集校正模块。
前者用于建模全局上下文以及不同尺度上局部patch之间的所有成对交互,后者用于提高隐藏层的透明度和修正不同分支的输出。
与以往的传统和深度学习方法相比,TransForensics不仅能够捕获有区别的表示并获得高质量的掩码预测,而且不受篡改类型和补丁序列顺序的限制。通过在主要基准上进行实验,我们表明,TransForensics在很大程度上优于最先进的方法。
引言
深度学习方法的主要缺点是严重依赖于手工设计的patch序列顺序和操作类型。具体来说,基于RNNs的方法将图像分割成一系列的小块,并使用长短时记忆(LSTM)网络来学习它们之间的相关性。这些网络可以接收顺序输入,但不能保留空间位置信息。相比之下,将手工特征与深度特征相结合的方法可以实现最先进的性能,但它们通常假设篡改类型是事先已知的。考虑到这些事实,我们在这里展示了如何在图像伪造定位框架中使用空间注意网络来建模图像中所有斑块之间的成对交互(包括丰富的统计特征),同时保持全局结构,减轻排序技术和操作类型的限制。
框架概述
FCN作为Backbone,利用自注意编码器对不同尺度特征图中点之间的丰富交互进行建模。为了提高性能,我们的网络使用密集的校正模块,这有助于从早期层学习更多的区别表示,并执行结果校正。
主要贡献
- 提出了一种新的图像伪造定位方法,称为TransForensics。
- 在图像取证中首次尝试对所有的成对关系进行建模,同时利用自注意机制保持patch之间的空间结构。
- 引入了一种密集校正架构,增加了对隐藏层的直接监督,并通过乘法对来自不同分支的输出进行校正。
- 该方法的性能明显优于SOTA方法。
相关工作
深监督
所谓深监督(Deep Supervision),就是在深度神经网络的某些中间隐藏层加了一个辅助的分类器作为一种网络分支来对主干网络进行监督的技巧