【论文笔记】MVSS-Net: Multi-View Multi-Scale Supervised Networks for Image Manipulation Detection

Deep_Lnna

已于 2022-11-08 23:47:47 修改

阅读量5k

点赞数 7

分类专栏：篡改检测论文阅读文章标签：论文阅读

于 2022-11-07 23:52:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45366180/article/details/127739439

版权

提出MVSS-Net++，一种针对图像操纵检测的多视图多尺度监督网络，利用卷积广义平均池化(ConvGeM)模块改善特征提取与反向传播效率，实现在像素级与图像级检测的平衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

发布于TPAMI2022
原文链接：https://arxiv.org/pdf/2112.08935v3.pdf
源码链接：https://github.com/dong03/MVSS-Net
本文只对于和MVSS不同的部分进行介绍，具体MVSS的内容见另一篇博客：https://blog.csdn.net/weixin_45366180/article/details/127643547?spm=1001.2014.3001.5501

主要贡献

为了将像素级操纵检测转换为图像级预测，我们提出了一种名为卷积广义平均池化(ConvGem) 的新模块代替之前使用的global max pooling (GMP)，新模块有效地克服了 GMP 的两个缺点，即反向传播图像尺度损失的瓶颈以及缺乏考虑积极响应的数量和空间分布的能力。提出了更好的模型 MVSS-Net++。
对当前模型如何对通过屏幕截图重新捕获的操纵图像做出反应进行了初步研究，这是图像在互联网上传播时的常见操作。测试其鲁棒性。

提出的模型

下图是MVSS模型。
在这里插入图片描述
下图是MVSS++模型。

本文的目的是训练一个多头的神经网络G（即不仅确定图像是否被操纵，而且确定其被操纵的像素）。

语义分割头 $G_{seg}$ ：像素级操作的概率S(x)。
图像分类头 $G_{clf}$ ：图像被操纵的概率C(x)，根据像素级的证据，我们从分割图中得到C(x)。

为了提取可推广的操作检测特征，G被设计成同时接受输入图像的原始RGB视图和额外噪声视图。为了在检测灵敏度和特异性之间取得适当的平衡，多视点特征学习过程由像素、边缘和图像三个尺度的标注共同监督。这就产生了多视图多尺度监督网络（MVSS-NET）。

用于图像级预测的ConvGeM

Global Max Pooling (GMP)将 S(x) 的最大值作为 C(x)，即C(x) = $S_{i∗,j∗}$

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。