WGAN笔记

在这里插入图片描述在这里插入图片描述
注意,是生成数据样本的期望有问题。

问题1.梯度消失

D最优时,引入KL散度,KL散度转化为JS散度(loss=最小化真实分布Pr与生成分布Pg间JS散度)loss=2JS(Pr||Pg)-2log2
但real 与fake分布重叠概率极小,此时若D最优,就可100%判别出两者差异,D又是二分类器,一旦认为二者不同,判别的JS Div就是一样的,无论二者相距多远,只要未完全重合,用JS Div表示的二者的距离就是一样的。
JS Div不变,D的梯度近似为零,梯度消失。

问题2.梯度不稳定,多样性不足

D最优时,第二种loss=
在这里插入图片描述
最小化这货。
而问题1中,我们需要minJS Div,问题2中,需要minKL,max JS,产生矛盾,造成梯度不稳定
在这里插入图片描述
同时,KL Div不对称,而对KL(Pg||Pr)与KL(Pr||Pg)惩罚不同,第一种错误对应的是“生成器没能生成真实的样本”,惩罚微小;第二种错误对应的是“生成器生成了不真实的样本” ,惩罚巨大。第一种错误对应的是缺乏多样性,第二种错误对应的是缺乏准确性。造成G生成安全的重复样本(缺少多样性),也就是mode collapse(模式坍塌)
总结:由于loss定义不准(distance衡量方式)与样本分布难重叠的问题,在原始GAN的(近似)最优判别器下,第一种生成器loss面临梯度消失问题,第二种生成器loss面临优化目标荒谬、梯度不稳定、对多样性与准确性惩罚不平衡导致mode collapse这几个问题。

WGAN前作解决梯度消失

对生成样本和真实样本加噪声,直观上说,使得原本的两个低维流形“弥散”到整个高维空间,强行让它们产生不可忽略的重叠。而一旦存在重叠,JS散度就能真正发挥作用,此时如果两个分布越靠近,它们“弥散”出来的部分重叠得越多,JS散度也会越小而不会一直是一个常数,于是(在第一种原始GAN形式下)梯度消失的问题就解决了。
在训练过程中,我们可以对所加的噪声进行退火(annealing),慢慢减小其方差,到后面两个低维流形“本体”都已经有重叠时,就算把噪声完全拿掉,JS散度也能照样发挥作用,继续产生有意义的梯度把两个低维流形拉近,直到它们接近完全重合。loss=
在这里插入图片描述
但因为加噪JS散度的具体数值受到噪声的方差影响,随着噪声的退火,前后的数值就没法比较了,所以它不能成为Pr和 Pg 距离的本质性衡量。
原文中写道:
The remedy is to add a noise term to the model distribution.
but this noise degrades the quality of the samples and makes them blurry.
the added noise term is clearly incorrect for the problem, but is needed to
make the maximum likelihood approach work.

WGAN解决方法:新的distance

1.利用ES(推土距离)代替JS散度
2.对生成样本和真实样本加噪声,强行使二者分布产生不可忽略的重叠。
Wasserstein距离相比KL散度、JS散度的优越性在于,即便两个分布没有重叠,Wasserstein距离仍然能够反映它们的远近。WGAN本作通过简单的例子展示了这一点。考虑如下二维空间中的两个分布 P₁ 和 P₂,P₁ 在线段AB上均匀分布,P₂ 在线段CD上均匀分布,通过控制参数 θ可以控制着两个分布的距离远近。
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
直接考虑Wasserstein距离需要算inf,计算是很困难的。考虑它的Kantorovich-Rubinstein对偶形式在这里插入图片描述
ps:这里D加限制是因为was距离无上下界,则Pg的was值越来越小,Pdata was值越来越大,判别器将永远无法收敛。加1-Lipschitz限制是把输出结果限制在(0,1)区间内。
ps:传统GAN的loss不稳定,无法衡量生成图片的质。但Wasserstein距离越小,G产生的图像质量就越高。在这里插入图片描述
这里给D加限制的做法:
weight clipping。设定上限c,下限-c,更新参数w超过上限则改为c,低于下限则改为-c。但没能真的限制在1-Lipschitz fuction内。
果WGAN训练采用SGD或者RMSProp算法,则收敛效果很好。一般不采用基于momentum的算法,如Adam算法,实现观察发现这类优化算法会导致训练变得不稳定。而我们知道,DCGAN采用Adam算法进行优化效果会比较好。这是WGAN与GAN训练方法的差别。

在这里插入图片描述
The number of parameters is similar to that of a DCGAN, but it lacks a
strong inductive bias for image generation.
具体算法解析参考:https://www.cnblogs.com/noahzhixiao/p/10171410.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值