【论文笔记】TransForensics: Image Forgery Localization with Dense Self-Attention

TransForensics是一种新的图像伪造检测方法,它利用self-attention编码器捕捉全局上下文和局部patch的交互,而密集校正模块则增强了特征表示并纠正预测。这种方法在不同篡改类型和顺序上表现优越,且通过深监督和特征融合策略提高了效率和准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

发布于ICCV2021

摘要

TransForensics框架的两个主要组件是密集self-attention编码器密集校正模块

前者用于建模全局上下文以及不同尺度上局部patch之间的所有成对交互,后者用于提高隐藏层的透明度和修正不同分支的输出

与以往的传统和深度学习方法相比,TransForensics不仅能够捕获有区别的表示并获得高质量的掩码预测,而且不受篡改类型和补丁序列顺序的限制。通过在主要基准上进行实验,我们表明,TransForensics在很大程度上优于最先进的方法。

引言

深度学习方法的主要缺点是严重依赖于手工设计的patch序列顺序和操作类型。具体来说,基于RNNs的方法将图像分割成一系列的小块,并使用长短时记忆(LSTM)网络来学习它们之间的相关性。这些网络可以接收顺序输入,但不能保留空间位置信息。相比之下,将手工特征与深度特征相结合的方法可以实现最先进的性能,但它们通常假设篡改类型是事先已知的。考虑到这些事实,我们在这里展示了如何在图像伪造定位框架中使用空间注意网络来建模图像中所有斑块之间的成对交互(包括丰富的统计特征),同时保持全局结构,减轻排序技术和操作类型的限制

框架概述

FCN作为Backbone,利用自注意编码器对不同尺度特征图中点之间的丰富交互进行建模。为了提高性能,我们的网络使用密集的校正模块,这有助于从早期层学习更多的区别表示,并执行结果校正。

主要贡献

  • 提出了一种新的图像伪造定位方法,称为TransForensics。
  • 在图像取证中首次尝试对所有的成对关系进行建模,同时利用自注意机制保持patch之间的空间结构
  • 引入了一种密集校正架构,增加了对隐藏层的直接监督,并通过乘法对来自不同分支的输出进行校正。
  • 该方法的性能明显优于SOTA方法。

相关工作

深监督

所谓深监督(Deep Supervision),就是在深度神经网络的某些中间隐藏层加了一个辅助的分类器作为一种网络分支来对主干网络进行监督的技巧

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值