生成对抗网络GAN(五)WGAN(Wasserstein GAN)及其改进

一、引入

fGAN结论:不只是JS Div,任何的Div(统称为f-Div)都可以被放到GANs架构中,引出WGAN。

二、WGAN

该论文介绍了一种新的算法,它是传统GAN训练的一种替代。在这个新的模型中,证明了可以提高学习的稳定性,摆脱像模式崩溃这样的问题,并且提供了对调试和超参数搜索有用的有意义的学习曲线。供了大量的理论工作,强调了分布之间的深度联系。 

论文阐述了JS散度的缺陷,大多数情况下,P_G与P_Data并不会重叠(overlapped),原因:

1.数据本质,在分布函数中,P_G与P_Data是高维空间的低维流形(manifold),如图P_G与P_Data为两条曲线时,其重叠部分可以忽略不计。

2.抽样数据,由于采样(Sampling)具有局限性,故不能代表数据的真实分布。

JS公式: 𝑱𝑺(𝑷|𝑸=𝟏𝟐𝑲𝑳(𝑷(x)||𝑷𝒙+𝑸𝒙𝟐)+𝟏𝟐𝑲𝑳(𝑸(𝒙)||𝑷𝒙+𝑸𝒙𝟐)得知JS(P||Q)=1/2 KL(P(x)||(P(x)+Q(x))/2)+1/2 KL(Q(x)||(P(x)+Q(x))/2)得知JS散度无法逐步下降,当且仅当G生成的DataReal Data非常接近时,JS散度为0

 论文提出了Wasserstein距离解决以上问题,对于离散的概率分布,Wasserstein距离又称为推土机距离(Earth Mover’s Distance ,EMD)。

 

当下图的左边想要移动为右边一样的分布时,

可以采用这样的策略(moving plan):

甚至这样:

 

穷举所有解,求Best moving plan。将Best moving plan问题转化:P移动到Q的数量可以看作矩阵(Matrix),Best moving plan转化为求最优矩阵的问题。

 

WGAN基于GAN模型,在计算𝑷_𝑮  与 𝑷_𝑫𝒂𝒕𝒂 的距离时,用Wasserstein距离代替了JS散度,实现了小步伐迭代更新权重参数。

三、WGAN-GP

WGANclip函数用于限制判别器,使之收敛于1-Lipschitz.

WGAN并没有做到,而是使用标量c控制。 WGAN-GP添加gradient penalty梯度惩罚使之收敛于1-Lipschitz。

四、实验结果

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值