论文下载地址:https://arxiv.org/pdf/1610.09585.pdf
一、文章主要解决了什么问题?
在本文中,介绍了用于改进生成式对抗网络(GAN)进行图像合成的新方法。 构建了使用标签调节的GAN的变体,该变体导致显示出整体一致性的128×128分辨率图像样本。 扩展了先前的图像质量评估工作,以提供两种新的分析方法来评估来自类条件图像合成模型的样本的可分辨性和多样性。 这些分析表明,高分辨率样品提供了低分辨率样品中不存在的类别信息。 在1000个ImageNet类中,可分辨的128×128样本的分辨率是人工调整大小的32×32样本的两倍以上。 此外,有84.7%的类别的样本具有与真实ImageNet数据相当的多样性。
使用标签的数据集应用于生成式对抗网络GAN可以增强现有的生成模型,并形成两种优化思路:
1. cGAN使用了辅助的标签信息来增强原始GAN,对生成器和判别器都使用标签数据进行训练,从而实现模型具备产生特定条件数据的能力。
cGAN: Conditional Generative Adversarial Nets
文章链接:https://arxiv.org/pdf/1411.1784.pdf
2. SGAN的结构来利用辅助标签信息(少量标签),利用判别器或者分类器的末端重建标签信息。
SGAN:Semi-Supervised Learning with Generative Adversarial Networks
文章链接:https://arxiv.org/pdf/1606.01583.pdf
而AC-GAN则是对以上两种方法的结合。
二、文章主要贡献在哪里?
(1)在D的输出部分添加一个辅助的分类器来提高条件GAN的性能
(2)提出 Inception Accuracy 这种新的用于评判图像合成模型的标准
(3)引进MS-SSIM用于判断模型生成图片的多样性
文章中如何描述?
(1)演示所有1000个图像合成模型空间分辨率为128x128的ImageNet类(或任何空间分辨率-参见第3节)
(2)测量图像合成模型实际使用其输出分辨率的程度(第4.1节)
(3)使用快速,易于计算的指标来测量GAN中的感知变异性和“崩溃”行为(第4.2节)
(4)强调大量类是使GAN难以进行ImageNet综合的原因,并提供了明确的解决方案(第4.6节)
(5)通过实验证明,在感知方面表现出色的GAN并非记住少量示例的GAN(第4.3节)
(6)在CIFAR-10上进行训练时,无需使用(Salimans等人,2016)的任何技术即可在Inception评分指标上达到最新水平(第4.4节)
三、文章笔记
文章中展示了来自ImageNet数据集所有类别的128×128像素样本(Russakovsky等人,2015),具有更高的整体一致性(图1)。
1. AC-GANs
提出了GAN架构的一种变体,称之为辅助分类器GAN(或AC-GAN)。 在AC-GAN中,每个生成的样本除噪声z外,还具有相应的类别标签c〜p c。 G都使用这两者来生成图像X fake = G(c,z)。 判别器给出源域上的概率分布和类标签上的概率分布P(S | X),P(C | X)= D(X)。 目标函数包含两个部分:正确源的对数似然LS和正确类的对数似然LC。
D被训练为最大化LS + LC,而G被训练为最大化LC-LS。 AC-GAN会学习与类别标签无关的z表示形式。 (e.g. (Kingma et al., 2014)).
从结构上讲,这个模型与现有的模型并没有太大的不同。但是,对标准GAN的这种修改会产生出色的效果,并且看起来可以稳定训练。 此外,文章认为AC-GAN模型只是这项工作的技术贡献的一部分,还有文章提出的用于测量模型利用其给定输出分辨率的程度的方法,用于测量来自样本的感知变化的方法以及对图像生成模型的全面实验分析,该模型从所有1000个ImageNet类中创建了128×128个样本。
早期的实验表明,在固定模型的情况下增加训练课程的数量会降低模型输出的质量。 AC-GAN模型的结构允许按类别将大型数据集分离为子集,并为每个子集训练生成器和鉴别器。 所有ImageNet实验都是使用100个AC-GAN进行的,每个AC-GAN进行10级分组训练。
2. 实验结果
文章在ImageNet数据集上训练了几个AC-GAN模型(Russakovsky等人,2015)。广义上讲,发生器G的架构是一系列“反卷积”层,将噪声z和c类转换为图像(Odena等,2016)。文章训练了模型体系结构的两种变体,以生成128×128和64×64空间分辨率的图像。判别器D是一个深度卷积神经网络,具有Leaky ReLU非线性(Maas et al。,2013)。如前所述,文章发现减少ImageNet的所有1000类引入的