《Image-to-Image Translation with Conditional Adversarial NetWorks》

最新推荐文章于 2024-08-20 23:10:20 发布

yuxing_miao

最新推荐文章于 2024-08-20 23:10:20 发布

阅读量859

点赞数 1

文章标签：神经网络

原文链接：https://blog.csdn.net/qq_16137569/article/details/79950092

版权

Image-to-Image Translation with Conditional Adversarial NetWorks

　　这是加里福利亚大学在CVPR 2017上发表的一篇论文，讲的是如何用条件生成对抗网络实现图像到图像的转换任务。
　　> 原文链接：https://arxiv.org/abs/1611.07004
　　> 论文主页：https://phillipi.github.io/pix2pix/，其中包含了PyTorch、Tensorflow等主流框架的代码实现

　　
　　图像、视觉中很多问题都涉及到将一副图像转换为另一幅图像（Image-to-Image Translation Problem），这些问题通常都使用特定的方法来解决，不存在一个通用的方法。但图像转换问题本质上其实就是像素到像素的映射问题，这篇论文提出“条件生成对抗网络（CGAN）”能够解决这一问题。如上图所示，使用CGAN可以实现语义/标签到真实图片、灰度图到彩色图、航空图到地图、白天到黑夜、线稿图到实物图的转换。使用完全一样的网络结构和目标函数，仅更换不同的训练数据集就能分别实现以上的任务。

摘要

　　我们研究将条件生成对抗网络作为图像转换问题的通用解决方案。该网络不仅可以学习输入图像到输出图像的映射关系，还能够学习用于训练映射关系的loss函数。这使得我们可以使用同一种方法来解决那些传统上需要各种形式loss函数的问题。我们证明了该方法可以有效实现下列任务：从标签图合成相片，从线稿图重构对象，给图片上色等。所以我们不再需要人工设计映射函数，而且这项工作表明，我们即使不手动设计loss函数，也能达到合理的结果。（听起来十分诱人）

前言

　　在图像处理、计算机图形学和计算机视觉领域，很多问题都可以认为是将一张输入图片“转换”成相对应的输出图片。一个场景可以被渲染为RGB图像，梯度域，边缘图或语义图等。类比自动语言翻译，我们将图像到图像的转换问题定义为，在给定足够训练数据的情况下，将场景的一个可能表示转换成另一个。语言翻译之所以困难的一个原因是，语言之间的映射很少是一对一的，一种语言中的概念总是比用其他语言表达来的容易。相似的，绝大多数图像转换问题也是多对一的（计算机视觉）或者一对多的（计算机图形学）。传统上，每个任务都使用一种单独的，专用的机制来解决。但是实际上这些任务本质上都是一样的：从像素点预测新的像素点。本文的目标就是为这些问题设计一种通用的框架。
　　同行已经在这个方向取得了重大的进步，CNNs逐渐成为解决各种图像预测问题的主力。CNNs通过学习使loss函数最小化（评估结果质量的目标），尽管学习过程是自动化的，但仍需要投入大量人力来设计有效的loss函数。换句话说，我们仍然需要告诉CNN我们希望将什么最小化。但是我们必须得和Midas一样小心我们期望的东西！如果我们采用了不成熟的方法，要求CNN最小化预测图像和真值图像之间的欧氏距离，那么这将会产生模糊的结果。这是因为欧式距离是通过将所有输出平均来最小化的，这将会产生模糊的结果。为了得到能够使CNN输出锐利，真实的图像，如何设计loss函数是一个开放性的且需要专业知识的问题。
　　相对的，如果我们只需要指定一个高级的目标，比如“产生难以和真实图片分辨的输出”，然后自动学习一个适合目标的loss函数，这就非常令人满意了。幸运的是，这正是最近提出的生成对抗网络GANs所做的事。GANs学习的是一个区分真实和伪造图像的loss函数，同时训练一个生成模型来最小化这个loss。模糊的图像将无法被容忍，因为它们看起来像伪造的图像。由于GANs学习的是适应于数据的loss，因此可以将GANs应用到大量的任务中去，而传统方法可能针对不同任务需要不同类型的loss函数。
　　本文中，我们研究有条件的GANs。和GANs从数据中学习一个生成模型一样，条件GANs学习一个条件生成模型。这使cGANs适用于图像转换问题，我们在输入图片上设置条件，得到相应的输出图像。
　　GANs在最近两年得到了广泛的研究，本文研究的许多技术在之前就已经提出了。尽管如此，之前的论文都是关注特定的应用，而cGANs作为图像转换问题的通用方法的有效性却仍然是不清楚的。我们主要的贡献是阐释了cGANs在很多问题上都能产生合理的结果。第二个贡献是提出了一个简单有效的框架，并分析了几种重要结构选择的效果。·

方法

　　GANs是一个学习随机噪声向量z尽可能检测出生成器的“伪造”图像。

　　
　　1. 目标函数
　　条件GAN的目标函数可以表示为

LcGAN(G,D)=Ex,y∼pdata(x,y)[logD(x,y)]+Ex∼pdata(x),z∼pz(z)[log1−D(x,G(x,z))]LcGAN(G,D)=Ex,y∼pdata(x,y)[log⁡D(x,y)]+Ex∼pdata(x),z∼pz(z)[log⁡1−D(x,G(x,z))]输入的变体形式：

LGAN(G,D)=Ey∼pdata(y)[logD(y)]+Ex∼pdata(x),z∼pz(z)[log1−D(G(x,z))]LGAN(G,D)=Ey∼pdata(y)[log⁡D(y)]+Ex∼pdata(x),z∼pz(z)[log⁡1−D(G(x,z))]相片的任务（上表所示）。基于GAN的loss函数得到了更高的分数，这表明合成出来的图像包含更多可识别的结构。我们也测试了移除判别器上条件（标记为GAN）的影响。这种情况下。loss没有惩罚输入和输出中不匹配的地方，它只关心生成的图片是否真实，所以结果非常差。而且不论输入图片，生成器生成几乎一样的图片，在这项任务中这是非常不好的现象，明显cGAN表现比GAN优秀。然后L1 loss项也鼓励输出尊重输入，因为L1会对预测输出和真值输出之间的距离进行惩罚，所以L1加上GAN之后同样可以产生真实且尊重输入的结果，L1+cGAN得分和L1+GAN的情况差不多。
Fig 7

　　色度：条件GAN一个显著的优点是甚至能够合成在标签输入中不存在空间结构，并且产生清晰的图像。我们猜想cGANs在光谱域内也有相似的效果，即使图像色彩更丰富。就像当无法确定边界的时候，L1 loss会造成模糊的结果，当像素点无法确定颜色的时候，L1 loss会促使生成平均、灰色调的颜色。特别的，L1将会通过选择各种可能颜色的条件概率中位数来使loss最小。另一方面，对抗loss大体上能够判断灰色的输出是不符合真实情况的，会鼓励生成符合真实颜色分布的色彩。在上图中我们研究了cGANs在Cityscapes数据集中达到的实际效果。曲线描述了在Lab空间中输出色彩的边缘分布。真实分布用点线表示。显然L1导致比真实情况更窄的分布，证明了L1鼓励平均，灰度化的颜色。另一方面，使用cGAN使输出的分布更加贴合真实分布。

　　
　　3.3 生成器结构分析
　　U-Net结构允许低级信息直接在网络中传递。这会导致更好的结果吗？上图比较了有无U-Net结构的效果。单纯的encoder-decoder在我们的实验中无法学会生成真实的图像，对于每个输入标签，生成了几乎一样的图像（朦朦胧胧一片）。U-Net结构并没有依赖于条件GAN结构：加和不加U-Net结构的网络分别在L1和L1+cGAN条件下进行了训练，两种情况下U-Net结构都达到了更好的效果。
这里写图片描述

　　3.4 从PixelGANs到PatchGANs到ImageGANs
　　我们测试了判别器接收域使用不同patch size N的效果：从1x1的“PixelGANs”到整张图像256x256的“ImageGANs”。上图图呈现了定性结果，上表呈现了FCN分数的定量结果。请注意本文其他地方，如果没有特别指明，均使用的是70x70的“PatchGANs”，本节所有实验都使用L1+cGAN的loss。
　　PixelGAN对于空间清晰度没有帮助，但是提升了结果的色彩效果。比如图中的巴士，在L1 loss下是灰色的，在PixelGAn下变成了橘红色。颜色直方图匹配在图像处理中一个很常见的问题，PixelGANs或许能成为一个解决方法。
　　使用16x16的PathGAN进一步提升了输出的清晰度，但是出现了一些不自然的纹理。70x70则减轻了这种效果。如果进一步提高N，使用256x256并没有提升效果，实际上FCN得分还下降了。这也许是因为ImageGAN相比70x70的patch拥有更多的参数和更深的深度，导致难以训练。