WGAN-GP

最新推荐文章于 2024-04-22 09:44:28 发布

一只tobey

最新推荐文章于 2024-04-22 09:44:28 发布

阅读量1.3k

点赞数 1

论文专栏收录该内容

40 篇文章 0 订阅

订阅专栏

PyTorch 实现论文 “Improved Training of Wasserstein GANs” (WGAN-GP)

Wasserstein GAN简明版

WGAN-GP是针对WGAN的存在的问题提出来的，WGAN在真实的实验过程中依旧存在着训练困难、收敛速度慢的问题，相比较传统GAN在实验上提升不是很明显。WGAN-GP在文章中指出了WGAN存在问题的原因，那就是WGAN在处理Lipschitz限制条件时直接采用了 weight clipping ( 通过在训练过程中保证判别器的所有参数有界，就保证了判别器不能对两个略微不同的样本在判别上不会差异过大，从而间接实现了Lipschitz限制)

weight clipping会导致很容易一不小心就梯度消失或者梯度爆炸。原因是判别器是一个多层网络，如果把clipping threshold设得稍微小了一点，每经过一层网络，梯度就变小一点点，多层之后就会指数衰减；反之，如果设得稍微大了一点，每经过一层网络，梯度变大一点点，多层之后就会指数爆炸。只有设得不大不小，才能让生成器获得恰到好处的回传梯度，然而在实际应用中这个平衡区域可能很狭窄，就会给调参工作带来麻烦

gradient penalty 就是设置一个额外的loss项来实现梯度与K之间的联系

WGAN-GP的创新点也就在目标函数的第二项上，由于模型是对每个样本独立地施加梯度惩罚，所以判别器的模型架构中不能使用Batch Normalization，因为它会引入同个batch中不同样本的相互依赖关系。

参考：https://blog.csdn.net/weixin_41036461/article/details/82385334

总结：WGAN-GP指出了WGAN存在的两大问题，weight clipping导致的参数集中化和调参上的梯度爆炸和梯度消失问题，改进的gradient penalty解决了问题将参数与限制联系起来达到真实的Lipschitz限制条件。但是理论归理论实际实验上WGAN-GP的效果并不尽人意，实验结果还没有WGAN的效果好。