AAAI2020-The Missing Data Encoder: Cross-Channel Image Completion with Hide-And-Seek Adversarial Net

最新推荐文章于 2024-07-23 14:36:35 发布

白白白白白丶

最新推荐文章于 2024-07-23 14:36:35 发布

阅读量259

点赞数

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/yimeixiaobai_/article/details/106157638

版权

文章地址： https://arxiv.org/pdf/1905.01861.pdf

背景

本文是图像补全方向的一篇文章，图像补全指的是仅从片段生成整个图像的问题。它包括inpainting(根据周围环境生成一个patch)、reverse inpainting/外推(根据中心patch生成外围)和colorization(根据其他通道生成一个或多个通道)。这就决定了它的应用范围十分广泛，包括被遮挡图像的提取，破损图像的修复等在本文使用了一个深度网络来完成图像补全，它具有对抗性训练以及感知和补全损失，称之为“缺失数据编码器”(missing data encoder, MDE)。

文章从原始图像的RGB或单通道部分生成完整图像的问题。从表示学习的角度来看，学习执行图像补全相当于对视觉对象的底层结构进行编码。文献中已经提出了许多方法，试图以非监督的方式学习这种结构，希望通过这种方式学习的表示能够帮助其他(主要是监督的)任务，例如图像分类、对象检测或语义分割。

实际上，对于许多这样的任务，在大型数据库(如ImageNet)上执行有监督的预先培训有助于提高准确性。文章认为一个强大的人工智能模型应当能够通过无监督的方式构建其内部表示。

图像补全类型
在这里插入图片描述
以上是文章研究的图像补全内容，分为不同的种类，文章对其进行了实验对比。

文章的工作

文章主要做了以下工作：

提出了MDE，一个新的图像补全的框架，它使用类似于u-net的体系结构、对抗性训练以及感知和补全损失。
引入了一种新的对抗hide-and-seek损失，它补充了图像生成任务的标准对抗目标函数，具体地确保在生成完整图像的过程中没有任何信息遗漏。
在多个数据集上彻底验证了模型的有效性，展示了几种MDE-REC的应用，包括目标遮挡下的图像生成、表示学习和人脸补全。

方法框架

在这里插入图片描述
文章使用的网络模型是基于GAN网络的，通过改进Loss函数，设计一个新型的编码解码器来实现。

损失函数

文章使用GAN作为最基础的网络架构，给定一个大小为W×H×3的RGB图像Z，通过与相同大小的随机二进制掩码M进行元素相乘来对其进行掩码操作：
在这里插入图片描述
判别器应当能够从训练集Z和掩码M中判断出图像的真假，的损失函数如下：
生成器反之：

在实际的训练过程中，如果只使用上面的生成器和判别器损失函数进行优化，会导致训练不稳定，于是使用一个经典的完成损失（在补绘区域和原始区域之间）：
在这里插入图片描述
如果按照以下公式进行优化，还是会得到坏的结果，判别器的优化速度会远快于生成器，无法保证在非补绘区域生成图像和原始图像保持一致：
于是在非补绘区域增加一个重建损失：

这样的任务仅包含对原始元素进行自动编码:它比完成任务要简单得多，因此可以有效地指导完成后者。以高保真度重构原始元素是至关重要的。在实践中，即使我们对非掩蔽区域的不良重建应用了很大的代价，这些区域也经常被修改。这是有问题的，因为在这种情况下，外推区域并不完全匹配掩码边界处的输入信息。为了解决这个问题，文章使用类似于u-net的体系结构，在编码器和解码器之间使用跳连接来帮助进一步保留输入区域。

在之前提到的使用complete函数来避免训练过程中的不稳定，但是这样在图像空间中加入损失会导致图像模糊，更好的方法是在预训练的网络的表示空间中加入损失：
在这里插入图片描述
还有一个问题，生成器虽然能够快速重建非掩蔽区域，但是会导致两者边界的不连续。文章为鉴别器设计了一种新的对抗掩码坐标回归损失：

最终的损失函数为：

其中rec损失用来保证非补绘区域在重建过程中和原始图像保持一致，compl损失用来保证训练过程中的稳定性，adv为GAN网络本身的损失函数，Hns则是保证mask区域和non-mask区域之间边界的连续性。

生成器结构

在这里插入图片描述
这是一个经典的U-net，可以很好的得到内容信息和高层特征，在医学图像的处理中经常用到。

实验

文章进行了不同任务的对比测试，结果如下：
在这里插入图片描述
S值为mask区域的设置，详情请阅读论文。

以下是文章进行的一个10此重建对比，可以清楚的看到每次补全的变化，两两之间还是比较相似的。
在这里插入图片描述
以下是量化结果实验：

以及在人脸识别邻域的作用：

总的来看文章的效果还是很不错的。

白白白白白丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AAAI2020-The Missing Data Encoder: Cross-Channel Image Completion with Hide-And-Seek Adversarial Net

文章地址： https://arxiv.org/pdf/1905.01861.pdf背景
复制链接

扫一扫