优化GAN的分布的梯度问题，WGAN

最新推荐文章于 2023-12-22 17:21:20 发布

MAR-Sky

最新推荐文章于 2023-12-22 17:21:20 发布

阅读量781

点赞数

分类专栏：人工神经网络

本文链接：https://blog.csdn.net/weixin_43794311/article/details/111500652

版权

人工神经网络专栏收录该内容

3 篇文章 0 订阅

订阅专栏

参考资料：http://blog.csdn.net/sallyxyl1993/article/details/64123922
https://baijiahao.baidu.com/s?id=1580024390078548003&wfr=spider&for=pc
https://sherlockliao.github.io/2017/06/20/gan_math/
http://blog.csdn.net/u011534057/article/details/52840788
https://zhuanlan.zhihu.com/p/25071913
注意：（由于符号是截取不同的图片，不同的两种表示两种分布情况）

经典的GAN网络简介

最初的目标函数
参数含义：
在这里插入图片描述

对目标函数的变换：（先将G固定）

上式中，由于在G固定的情况下，训练D对真实数据判断的最大值。而z分布通过固定的G之后会被映射到x的分布中，但有些不在x分布中，则它的概率就是0，所以公式的后半部分就简化为z能够映射到x的范围中的计算。
在这里插入图片描述

若想得到D的最大值这得到上式的最大值，如第二个式子的形式的最大值，通过求导为0可以得到最大值为：a/(a+b)，及在G固定的情况下，目标函数最大值是：
在这里插入图片描述
当最优的判别器确定后，若想得到最好的G，则两个分布相同时，也就是p_data(x)=p_g(x)=0.5，判别式可转换为如下所示，

在这里插入图片描述
由于常数的均值不变，则C(G) = -log 4，及最优的情况下目标函数值，也是在D确定的情况下，G的最小值。在没有达到最优的G时，可以将上式提出一个-log 4,通过变化得到下面的式子(参考：https://blog.csdn.net/stalbo/article/details/79283399)：
在这里插入图片描述

又知道JS散度的计算公式

可将上面的式子最终化简为，

目标函数的问题

参考：https://www.zhihu.com/question/315253041/answer/877635189
对于前面提到的目标函数的最优解：
在这里插入图片描述
以及当D为最优时的G的目标函数

下面是KL散度的公式，两中分布（P，Q）可能出现多种情况，

P和Q无重合分布点，这生成器分布Q（x）=0，此时，KL的散度无意义，JS散度会成为一个常数。下面是二维平面数据分布的几种情况，

在这里插入图片描述
在实际中，分布的情况是多维的，而上图中只是二维，可以想象一下三维空间的两个平面的分布设为（F1,F2），这时的分布的重合范围就是一条线，相比与整个分布来说可以忽略，如果到更高维的分布则重合部分的比重会更少。也就是**JS散度是常数log 2，此时，梯度下降法的梯度为0 。**而且当D无线接近最优解时，生成器的梯度消失越严重，则训练越困难。

重新定义的目标函数

在这里插入图片描述
其中lb是指log 2,结合前面提到的算法，该式子可以转换为

其中式10，要求两个分布的概率相同，但式11，要求两个分布不一样，这中情况下不可能得到最优解。当对单一条件得到最优解：
只是满足式子10时，
在这里插入图片描述
这个说明生成了最真实的样本，但没有多样性，生成正确重复的样本，也不会生成多样性样本，就是模式崩溃。