【论文笔记】A Dense U-Net with Cross-Layer Intersection for Detection and Localization of Image Forgery

用于图像篡改定位的跨层交叉密集U-Net
发布于ICASSP 2020
论文链接:https://ieeexplore.ieee.org/abstract/document/9054068

摘要

本文将跨层交叉机制应用于密集u-net中进行图像伪造检测与定位。我们首先训练DenseNet进行二值分类。采用空间丰富模型**(SRM)滤波器对检测到的图像进行残差信号捕获**。然后提出了一种保留全连接层完整特征图的方法,并将其作为图像分割的空间决策信息。此外,通过多尺度上采样和串联,将下采样路径中的这些特征更有效、更密集地传递到上采样路径。然后采用多阶段训练方案来提高网络的收敛性。实验结果表明,该方法在多个标准数据集上都取得了良好的效果。

引言

在本文中,我们探讨了特征交集的优点,以实现对篡改图像的高细节分割。我们考虑使用SRM滤波器的图像的残差特征来整合像素信息和残差,以便更好地学习。受到DDN对u-net改进的启发,我们采用了一种更密集的连接测量方法,将多尺度特征上采样到反卷积网络的深层。注意,全连接层在定位任务中通过处理每个像素生成一个2通道的特征图。为了充分利用这一决策信息,我们建议在反卷积路径中引入一个跨层交叉,通过更好地利用上下文特征来提高像素分类的性能。为了证明这一点,我们在4个广泛使用的数据集上评估了我们的网络的性能。

提出的方法

基本架构:DenseNet、全卷积网络
该网络由密集卷积网络反卷积网络组成。前者是提取图像特征的下采样路径,后者是 恢复特征图大小的上采样路径。

卷积网络的结构

对于网络的backbone,我们基本遵循DenseNet-BC的结构,由4个密集块、3个过渡层、一个全局平均池化层和一个全连通层组成,如图1的上采样路径所示。预处理卷积层使用了大小为7x7的大卷积核,stride为2,使得feature map的大小减少了一半。我们将DenseNet的增长速率设为15,瓶颈层数设为和[5,10,20,12]相同,划分为4个密集块,适当缩小了网络的规模。由于全局平均池化层的存在,该网络在实际中允许输入任意大小的图像,因此采用多图像大小的训练。在原始的下采样路径之上,我们包含了一个卷积层,其内核初始化为归一化的SRM过滤器大小为5x5,以获得更好的图像残差表示。因此,图像的残差特征图可以作为直接特征输入到网络中。对于真伪图像的分类,我们使用softmax交叉熵损失来指导训练过程。
在这里插入图片描述
每个下采样或上采样都是通过图中块大小的修改来观察的。向全局平均池化层绘制虚线意味着它在定位被篡改的区域时已被弃用,输出的map将直接传递给全连接的层。

反卷积网络的结构

我们使用u-net的对称结构来构造反卷积网络(表2中的“DU”)。首先我们去除卷积网络中的全局池化层,以保留完整的特征映射。其次是3个反卷积过渡层和3个密集块。过渡层仍然使用1x1卷积执行压缩,除了第一个尝试充分利用卷积网络输出的压缩,然后我们使用反卷积来实现2x上采样。将密集块中的瓶颈层数设置为[12,6,3],使特征块的厚度随着宽度和高度的增大而逐渐减小。为了更好地说明该结构,图1中彩色箭头表示反卷积层上采样。注意,在反卷积中使用的核大小是代表放大的两倍,输出特征图应该被裁剪,以避免尺寸舍入导致的尺寸不一致,这是由于下采样而发生的。

受[15]中语义分割任务进展的启发,我们采用了一种密集连接机制(表2中的“DC”),上采样层从下采样路径输出不同大小的数据,并通过串联的方式连接到上采样路径。我们发现,大倍数的上采样对掩模输出没有多大帮助。因此,只使用2倍和4倍的上采样。每个反卷积层接受浅层的输入,输出15个特征图,这些特征图与其他比例信息连接在一起。

基于u-net的体系结构,引入一个额外的连接(表2中的EC)(见图1上采样路径右侧的红色连接),对卷积网络的2通道输出逐级上采样,并将其连接到上采样路径的不同层。我们采用这种跨层结构来传递空间决策信息,并充分利用了在伪造检测中训练的全连接层的权值。实际上,我们建立了一个5个上采样的分支来恢复一个原始大小的特征图,以帮助决定预测的分割。

我们的网络最终输出两个特征图,然后由加权的softmax分类器确定像素分类的二进制图。这是为了平衡由于被篡改区域较小而导致正负像素比例不均匀的问题。经过多次实验,我们将篡改像素的α值设为0.6,原始像素的α值设为0.4。
在这里插入图片描述
其中i是第i个类别在0和1之间的权重,yi是实际值(0或1),yi是softmax输出。

结果与分析

数据扩充

数据集:CASIA, NC2016和Columbia未压缩数据集。

为了构建足够大的数据集,我们首先使用基于滑动窗口的方法生成大量的有效样本。128x128窗口通过被篡改的图像,我们按照以下原则对图像块进行过滤:(1)只保留被篡改面积小于40%的窗口。(2)丢弃被篡改区域小于150像素的窗口。该策略防止了伪造区域不合理和样本数量不足的问题,有助于网络掌握图像伪造的检测方法。然后我们采用数扩充的方法,通过对样本进行水平翻转和旋转处理,进一步扩大数据集。我们不仅增强了网络的旋转不变性,而且提高了模型的鲁棒性。此外,图像以0.5的概率被压缩,JPEG因子在50和95之间随机选择,用来评估我们的方法在JPEG攻击下的性能。

数据集性能

表1显示了我们的网络在5倍交叉验证中的平均性能。结果表明,该网络具有较高的检测精度(Columbia数据集为99.17%,CASIA v2.0数据集为97.39%)和较高的定位指标,四个数据集的平均像素分类精度、交并比和f1得分分别超过95%、46%和0.52。
在这里插入图片描述
我们提出的方法在F1得分上明显优于基于手工特征的方法,如表2所示。这是由于卷积神经网络更高效的特征学习,以及SRM层在提取残差信号和DenseNet在重用特征方面的有效性
在这里插入图片描述
我们还与其他先进的深度学习方法进行了比较。我们的网络在Columbia数据集上的性能优于MFCN和RGB-N,在CASIA v1.0数据集上的性能优于MFCN和RGB-N,分别达到了至少23%和3%,说明我们提出的网络在聚合网络全局特征方面的有效性,而其他两种网络更注重单个特征。MFCN使用边缘掩模增强,RGB-N关注噪声不一致性。此外,通过表2最后三排的逐步对比实验,我们验证了DC和EC两种结构的好处。

如图2所示,我们的网络可以有效地预测测试图像的三种篡改方法的异常区域。为了更好地演示,我们将卷积网络的二进制输出缩放到原始图像的大小。它给出了异常区域的大致范围和形状,即使不那么精确。跨层连接结构有助于网络更多地关注这些可能的目标区域。浅层网络的输出在u-net的基础上连接上采样路径,有利于补充区域细节。值得注意的是,分层交叉模式有利于梯度的直接循环和空间决策信息的传递。最终的预测掩模具有精确的目标轮廓和精细的边界,验证了我们的网络结构的有效性。Columbia数据集之所以能够获得较好的预测结果,是因为拼接方法比较仓促,降低了检测的难度。至于我们的方法在NC2016上的相对性能较差,是因为在我们的实现中,数据集中的图像尺寸减小了,这可能会在一定程度上影响网络捕获异常噪声的能力
在这里插入图片描述
我们的网络对JPEG攻击下的图像的鲁棒性表现如表3所示。在测试期间,质量系数设置为90、70和50。垂直方向上,质量因子越小,网络定位结果越差。这是因为压缩减小了被篡改像素与原始像素之间的距离,增加了像素分类的难度。训练的随机压缩策略促使网络学习更准确的决策边界,通过横向比较,性能退化速度明显减缓,证明了该策略的有效性。但是对于未压缩的图像,经过压缩增强训练的网络并没有带来太大的好处,甚至CASIA v2.0和NC2016的F1成绩也略有下降。我们认为这两个数据集的高级篡改手段会产生较小的簇距,因此对训练集的进一步压缩可能会导致网络在决策边界上产生波动。
在这里插入图片描述

总结

本文提出了一种用于图像伪造检测和定位的密集u-net。与之前的工作相比,所提出的网络中的跨层相交可以有效地探索浅层特征对预测分割的多尺度贡献。通过去除全局池化层,保存下采样网络的二值图,并通过多次上采样进行传递,提高了对异常区域的敏感性和效益梯度反向传播。为了加快网络的学习过程,我们还采用了图像块的预训练策略,然后使用全尺寸图像进行微调。在多个公开数据集上的实验结果表明了该方法的优越性和对JPEG攻击的鲁棒性。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值