GAN的统一架构与WGAN

最新推荐文章于 2024-06-19 00:43:04 发布

Young_Gy

最新推荐文章于 2024-06-19 00:43:04 发布

阅读量5.8k

点赞数 2

本文链接：https://blog.csdn.net/young_gy/article/details/72627722

版权

原始GAN
统一架构
WGAN

这里写图片描述

GAN是让机器自动生成 $P_G$ 去接近 $P_{data}$ 。算法的关键是衡量分布 $P_G,P_{data}$ 的差异，不同的衡量办法得到的 $V(G,D)$ 不同，但是所有的衡量方法都可以归纳到一个统一的框架中：利用f-divergence衡量两个分布差异，利用Fenchel Conjugate将两个分布差异的问题转化到GAN的大框架中。
而近段异常流行的WGAN，便是将两个分布的差异用Earch Mover Distance衡量，然后用weight clipping或gradient penalty优化梯度计算，取得了非常好的效果。

原始GAN

原始GAN的演算法如下，通过discriminator的loss与js divergence相关联。

这里写图片描述

统一架构

f divergence

衡量两个分布的差距有多种方法，这些方法基本上都属于同一个架构f divergence。如下， $D_f (P||Q)$ 通过包含 $f$ 函数的积分评估了两个分布的差异：

D f (P | | Q) = \int x q (x) f (p ( x ) q ( x )) d x

$D_f (P||Q) = \int_x q(x) f(\frac{p(x)}{q(x)}) dx$

$f$ 函数满足的条件如下（满足这样的条件， $D_f (P||Q)$ 的最小值当且仅当两个分布完全相同时为0）：

$f$ 是凸hanshu
$f(1)=0$

不同的f函数会得到不同的divergence，但是都属于f divergence这个大框架中，区别只是f函数的不同。

这里写图片描述

fenchel conjugate

每一个凸函数 $f$ ，都有与其conjugate的函数 $f^*$ ， $f^*$ 的定义如下：

这里写图片描述

举例如下：

这里写图片描述

connect with gan

那么一个问题随之而来：f divergence以及fenchel conjugate与GAN到底有什么联系呢？

首先，f divergence提供了一种度量两个分布差异的方式；然而，f divergence需要知道pdf，生成分布的pdf不容易得到；这时候通过f的fenchel conjugate对原来的差异公式进行变换，引入额外的变量D（也就是discriminator），转化成找到令值最大的D的问题，最终化成GAN类似的形式。具体化简过程如下：

这里写图片描述

总的来说，f divergence以及fenchel conjugate的价值在于：构建了两个分布的f divergence，通过fenchel conjugate将divergence转化为 $max_D V(G,D)$ 的问题，自然而然地与GAN关联了起来。

其他

GAN的训练在原始paper中是两次循环，f-divergence的paper中是一次循环。

这里写图片描述

不同的f函数得到的分布差异也不一样，如下：

这里写图片描述

KLD与JSD相比，对多分布的拟合效果较好：

这里写图片描述

WGAN

介绍

前面介绍了用f-divergence去度量两个分布的差异，WGAN与传统GAN的区别就是度量分布差异的方式不同。WGAN使用了earth mover's distance，顾名思义，就是把一个分布变成另外一个分布需要花的力气。earth mover's distance的定义如下：

这里写图片描述

优势

WGAN的优势，主要在于earth mover's distance。earth mover's distance相比js divergence的优点是：当两个分布没有接触的时候，不管距离远近，js divergence的度量都是相同的，而earth mover's distance会考虑到两个分布的距离到底有多远，这样在训练的时候便更容易训练。

如果不使用WGAN，通常的做法是给分布加噪声，让分布有重叠，这样才更容易去训练。

这里写图片描述