201901近期指的读的几篇GAN进展论文

最新推荐文章于 2022-10-15 20:48:22 发布

研海无涯

最新推荐文章于 2022-10-15 20:48:22 发布

阅读量1k

点赞数

分类专栏： GAN reading Paper

本文链接：https://blog.csdn.net/xiaojianzhao/article/details/104665069

版权

reading Paper 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

GAN

4 篇文章 0 订阅

订阅专栏

1.

在这里插入图片描述

主要问题：
高分辨率图像的生成很困难，因为更高的分辨率使其更易于区分生成的图像和训练图像，从而极大地放大了梯度问题。由于内存的限制，较大的分辨率还必须使用较小的小批处理，这进一步损害了训练的稳定性。
-解决方法：
作者的主要见解是，我们可以从更简单的低分辨率图像开始逐步增加生成器和鉴别器，并随着训练的进行添加新层，以引入更高分辨率的细节。正如我们将在第2节中讨论的那样，这大大加快了训练速度，并提高了高分辨率的稳定性。

论文还提出了自己对正则化、归一化的一些理解和技巧，值得思考。当然，由于是渐进式的，所以相当于要串联地训练很多个模型，所以 PGGAN 很慢。
2

主要问题：

大多数现有的GAN都需要多尺度鉴别器才能将高分辨率任务分解为从低到高的任务，这增加了训练的复杂性。另外，已经付出了很多努力来通过混合模型来组合VAE和GAN的优势。 VAE / GAN [23]在数据空间上添加了一个鉴别符，以提高由VAE生成的结果的质量

解决方法：

为了缓解此问题，我们引入了自省变分自动编码器（IntroVAE），这是一种简单而有效的训练VAE的图像合成方法。来自VAE的样本趋于模糊的原因之一可能是训练原理使得VAE将高概率分配给训练点，而不能确保将模糊点分配给低概率[14]。受此问题的影响，我们以内省的方式训练VAE，以使模型可以自我估计生成的图像与真实图像之间的差异。在训练阶段，推论模型试图将真实数据的先验近似值与后验的差异最小化，同时将生成的样本最大化。生成器模型试图通过最小化所生成样本的差异来误导推理模型。该模型就像真实数据的标准VAE一样，在处理生成的样本时也像GAN一样。与大多数VAE和GAN混合模型相比，我们的版本不需要额外的鉴别器，从而降低了模型的复杂性。所提出的方法的另一个优点是，它可以在单个阶段通过单流网络生成高分辨率的逼真图像。在对抗性上对发散对象以及重建误差进行了优化，这为推理模型（即使是高分辨率的）增加了区分生成的图像和真实图像的难度。这种安排大大提高了对抗训练的稳定性。

ps：除了能生成1024的高清图，更值得一提的是，这篇文章在构思上非常精妙。因为能同时得到编码器和生成器的模型不算独特，比如 BiGAN 就能做到，但是 IntroVAE 独特之处在于它能直接利用了 encoder 作为判别器，不需要额外的判别器，也就是直接省去了 1/3 的参数量。这背后更深层次的原因，值得我们去细细分析和回味。

3.

在这里插入图片描述

创新点：

通过大规模 GAN 的应用，BigGAN 实现了生成上的巨大突破；
采用先验分布 z 的“截断技巧”，允许对样本多样性和保真度进行精细控制；
在大规模 GAN 的实现上不断克服模型训练问题，采用技巧减小训练的不稳定。
文章的创新点是将正交正则化的思想引入 GAN，通过对输入先验分布 z 的适时截断大大提升了 GAN 的生成性能，在 ImageNet 数据集下 Inception Score 竟然比当前最好 GAN 模型 SAGAN 提高了 100 多分（接近 2 倍），简直太秀了。
BigGAN 在网上已经有很多科普介绍了，不再重复。论文还提出了自己的一些正则化技巧，并分享了大量的调参经验（调整哪些参数会有好的／坏的改变），非常值得参考。
一味加深网络可能会妨碍生成的性能；

共享类的思想在控制超参数上是很麻烦的，虽然可能会提高训练速度；

WeightNorm 替换 G 中的 BatchNorm 并没有达到好的效果；

除了频谱规范化之外，尝试将 BatchNorm 添加到 D（包括类条件和无条件），但并未取的好的效果；

在 G 或 D 或两者中使用 5 或 7 而不是 3 的滤波器大小，5 的滤波器可能会有些许提升，但是计算成本也上去了；

尝试在 128×128 的 G 和 D 中改变卷积滤波器的扩张，但发现在任一网络中即使少量的扩张也会降低性能；

尝试用 G 中的双线性上采样代替最近领近的上采样，但这降低了性能。

4

在这里插入图片描述

这个新的生成器架构，据说是借鉴了风格迁移的模型，所以叫 Style-Based Generator。我读了一下，其实它差不多就是条件 GAN（CGAN）的架构，但是把条件和噪声互换了。简单来说，就是把噪声当作条件，把条件当作噪声，然后代入到 CGAN 中。

与有监督学习的任务不同，有监督学习中，一般只要设计好模型，然后有足够多的数据，足够的算力，就可以得到足够好的模型；但 GAN 从来都不是设计模型就完事了，它是一个理论、模型、优化一体的事情。
模型架构来看，DCGAN 奠定了基础，后来发展的 ResNet + Upsampling 也成为了标准框架之一，至于刚出来的 Style-Based Generator 就不说了，所以说模型架构基本上也成熟了。
那剩下的是什么呢？是优化，也就是训练过程。

5.

在这里插入图片描述
在前面已经介绍过这篇文章了，但这里还是再放一次，因为实在是太经典。感觉是研究 GAN 训练稳定性必看的文章，作者从微分方程角度来理解 GAN 的训练问题。
在稳定性分析的过程中，这篇文章主要还引用了两篇文章，一篇是它的“前传”（同一作者），叫做 The Numerics of GANs ，另一篇是 Gradient descent GAN optimization is locally stable ，都是经典之作。
参考文献：
近期值得读的10篇GAN进展论文.
深度解读DeepMind新作：史上最强GAN图像生成器—BigGAN.

研海无涯

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
201901近期指的读的几篇GAN进展论文

1.主要问题：高分辨率图像的生成很困难，因为更高的分辨率使其更易于区分生成的图像和训练图像，从而极大地放大了梯度问题。由于内存的限制，较大的分辨率还必须使用较小的小批处理，这进一步损害了训练的稳定性。-解决方法：作者的主要见解是，我们可以从更简单的低分辨率图像开始逐步增加生成器和鉴别器，并随着训练的进行添加新层，以引入更高分辨率的细节。正如我们将在第2节中讨论的那样，这大大加快了训...
复制链接

扫一扫

专栏目录