对抗生成网络（GAN）详解

白羊by

已于 2022-07-11 10:32:05 修改

阅读量6.3k

点赞数 10

分类专栏：深度学习知识总结目标检测算法文章标签：算法计算机视觉人工智能生成对抗网络深度学习

于 2022-07-03 09:52:05 首次发布

本文链接：https://blog.csdn.net/weixin_45848575/article/details/125580815

版权

深度学习知识总结同时被 2 个专栏收录

16 篇文章 6 订阅

订阅专栏

目标检测算法

5 篇文章 1 订阅

订阅专栏

前言

之前的生成模型侧重于将分布函数构造出来，然后使用最大似然函数去更新这个分布函数的参数，从而优化分布函数，但是这种方法计算比较困难，尤其是维度比较高时，所以作者考虑能不能不用构造一个分布出来，而是构造一个模型自己去学习这个分布。这两种方法有本质的区别，第一种是要完完全全的将分布构造出来，将分布的均值、方差等弄明白，而第二种方法是不需要构造分布，只需要构造模型得到近似的结果就可以。

GAN模型中有两个分布，一个是生成器，一个是判别器，根据他们的名字就可以看出，生成器是生成和真数据相似的分布来欺骗判别器，二判别器是判断出假数据从而不让生成器得逞，原文中作者举了一个很形象的例子，生成器就如假币的贩子，判别器就如警察，假币贩子制造假币，警察识别假币找出假币贩子，是一个对抗的过程。

其实，原始的生成器和判别器很简单，就是一些全连接网络组成，可以通过反向传播进行端到端的训练，训练过程相当于一个不断学习和对抗的过程。

整个过程大概如下图所示，将随机噪音输入到生成器，这里的随机噪音例如可以服从的是高斯分布，生成器根据输入的噪声生成一张假图像，判别器将真实图像和生成的假图像作为输入进行训练，这里的判别器其实就是一个二分类模型，输出为真或假。

目标函数

GAN的目标函数如下所示，很多人都没有对这个函数进行详细的说明，在这里呢我详细的说明一下。

式中，z是随机噪声， $p_{z}\left ( z \right )$ 是随机噪声z的分布， $G\left ( z,\theta _{g} \right )$ 是生成器，输入为z，其中有一个权重参数 $\theta _{_{g}}$ ， $D\left ( x,\theta _{d} \right )$ 是判别器，输入为图像x，他的权重参数为 $\theta _{d}$ ，所以对于GAN来说他训练的是两个模型，是一个对抗的过程，所以在他的目标函数中有一个求最大max和一个求最小min的过程。

GAN的目标函数包括两部分，如图中的红框和绿框：

判别器D要最大化 $log\left ( D\left ( x \right ) \right )$ ， $D\left ( x \right )$ 的含义是将真实图像输入到判别器D中，判别器认为是真图的概率，判别器希望真实图像的概率越大越好，这就对应了式中的maxD，绘制出 $log\left ( D\left ( x \right ) \right )$ 图像如下。

生成器要最小化函数 $log\left ( 1-D\left ( G\left ( z \right ) \right ) \right )$ ， $D\left ( G\left ( z \right ) \right )$ 的含义是将噪声z输入到生成器G中得到一个假图 $G\left ( z \right )$ ，然后将 $G\left ( z \right )$ 输入到判别器D中，输出判别器认为假图是真图的概率，即 $D\left ( G\left ( z \right ) \right )$ 。绘制出 $log\left ( 1-D\left ( G\left ( z \right ) \right ) \right )$ 图像如下，生成器的目标是让判别器认为假图是真图的概率 $D\left ( G\left ( z \right ) \right )$ 越大越好，即接近于1，而 $log\left ( 1-D\left ( G\left ( z \right ) \right ) \right )$ 是一个递减的过程，即 $D\left ( G\left ( z \right ) \right )$ 越大 $log\left ( 1-D\left ( G\left ( z \right ) \right ) \right )$ 越小，所以生成器的目标变成了让 $log\left ( 1-D\left ( G\left ( z \right ) \right ) \right )$ 越小越好，这就对应了式中的minG。