Hybrid LSTM and Encoder–Decoder Architecture for Detection of Image Forgeries论文阅读_hybrid lstm and encoder-decoder architecture for d-CSDN博客

本文链接：https://blog.csdn.net/weixin_44576543/article/details/103458839

本文介绍了一种利用Hybrid LSTM和Encoder-Decoder架构来检测图像篡改的方法，重点关注像素级别的篡改定位。通过结合重采样特征、LSTM和编解码网络，该框架能有效检测复制粘贴、拼接等篡改操作。论文中还提出了新的数据集用于训练和评估，并与其他深度学习方法进行了比较。

摘要由CSDN通过智能技术生成

Hybrid LSTM and Encoder–Decoder Architecture for Detection of Image Forgeries

Code link:https://github.com/jawadbappy/forgery_localization_HLED

1 摘要

随着图像修改工具的进步，图像内容的修改日益严重，包含复制克隆、物体拼接、移动等操作的检测变得很具有挑战性，在视觉上难以分辨出来，这篇文章提出一种高置信度的篡改定位检测框架，充分利用重采样特征、LSTM，编解码网络分割出像素级别的篡改区域。重采样特征用来捕获篡改痕迹，包括JPEG质量损失、上采样、下采样、旋转与剪切。提出的网络利用空间领域的较大接收视野和谱域的关联分析是否为篡改区域的区别性特征通过整合编码网络与LSTM网络，最后使用解码网络来定位来自低分辨率特征的映射，利用softmax层来预测mask，通过反向传播算法进行端到端的学习，而且引入了用于定位篡改区域与高精度的拼接数据集。

2 引言

随着篡改工具的发展，篡改通过视觉来分辨变得具有挑战性，通常的篡改类型分为两类，一个是内容篡改一个是内容保留（压缩、模糊、对比度加强）主要来源于后处理，造成较少的伤害因为其没有改变语义内容；改变内容的有复制粘贴、拼接、物体移除、任意篡改语义内容的操作，内容的修改引起图片信息的改变与丢失。随着篡改图片的操作日益增多，对于篡改的检测也趋于重要，最近图片与视频的语义篡改的检测也日益流行，在本文中，我们提出了一种像素级别的篡改定位网络框架

在过去的几年间，分类图像是否篡改逐渐成为主流工作，【13】【29】【38】【46】【64】【72】【76】很少的工作在于篡改的像素级定位【7】【14】，一些工作是篡改块的定位【17】【25】【53】优秀的篡改图片很难在视觉上留下线索，如图1（a）复制粘贴（b）拼接（c）背景的改变

多数的图片篡改检测利用频域的特征，统计量来决定【45】【55】【57】【83】，在【20】【83】是对JPEG压缩的检测，受到格式的限制，在【66】【67】中，通过添加噪声来加强重采样特征的检测；在计算机视觉方面，深度学习在目标识别与检测方面取得较大的突破【31】，场景分类【88】语义分割【54】，基础的方法自动编码器【86】CNN的【8】【21】75等用于图像篡改检测，在多媒体取证方面，现存的方法多专注在具体的篡改类型，copy-move【19】【35】【47】，拼接的【60】，因此应对的篡改类型比较单一，尤其是不知道篡改类型的情况下，我们最近的文章【7】，提出了通用的检测框架来应对不同程度的内容篡改；

并非如语义分割一样，所有的区域内物体都需要分割，图像篡改只强调对篡改区域的定位；在计算机视觉方面，一些先进的的语义分割方法【6】【54】【87】都是基于CNN的，在【87】中充分利用全卷积网络提供不同水平的高级特征来分析物体内容与形状，在目标检测【31】与分割【6】【54】，CNN在分析不同区域的内容方面显示出优异的潜能，对比语义分割、篡改区域的物体被移除并被填充来自另一部分物体，较好的篡改经常是内容上相似【75】，即便是CNN产生不同区域的空间映射也不能区分、所以只通过CNN框架的篡改检测是不足够的，在我们早期的【7】的工作中，对比不同的语义分割方法【54】【87】，并未对复制粘贴与物体移除显示出较好的性能。

图像篡改产生很多人工痕迹，重采样、压缩、剪切等操作在重采样特征刻画的很明显&#