【GAN】基础知识（还在更新）

最新推荐文章于 2024-06-14 20:43:21 发布

华农度假村村长

最新推荐文章于 2024-06-14 20:43:21 发布

阅读量401

点赞数

文章标签：生成对抗网络人工智能神经网络

本文链接：https://blog.csdn.net/weixin_50862344/article/details/131546801

版权

还没写完，别骂了.....遇到啥新东西也会补充进来

1. 损失函数/距离度量

1.1 KL散度

用来衡量分布之间距离

1.1.1 推导过程

如果想要对KL散度有一个比较好的理解，我其实建议看一下，从信息熵的角度入手我认为是一个比较好的切入点相对熵（KL散度）、JS散度和Wasserstein距离

$P(x)$ 和 $Q(x)$ 都是概率分布， $P(x)$ 一般代表真实分布， $Q(x)$ 一般代表拟合 $P(x)$ 的近似分布

利用期望的计算公式就可以得到用期望表示的KL散度

1.1.2 性质

非负性：KL散度始终非负，即 KL(P || Q) ≥ 0。
零值：当且仅当P和Q相等时，KL散度为0，表示两个分布完全相同。
不对称性：KL散度是不对称的，即 KL(P || Q) ≠ KL(Q || P)，表示P相对于Q的信息增益和P相对于Q的信息损失不同。

1.1.3 前向和反向KL散度

$KL[P(X)||Q(X)]$ 称为前向KL散度（forward Kullback-Leibler Divergence）

$KL[Q(X)||P(X)]$ 称为反向KL散度（reverse Kullback-Leibler Divergence）

【具体分析】进阶详解KL散度 - 知乎 (zhihu.com)

1.2 JS散度(Jensen–Shannon divergence)

为了解决KL散度不对称的的问题引入了 JS散度

1.2.1 公式

1.2.2 对称性证明

1.2.3 缺陷

当两个分布完全不重叠时，即便两个分布的中心距离有多近，其JS散度都是一个常数，以至于梯度为0，无法更新。

【参考】 GAN：两者分布不重合JS散度为log2的数学证明

1.3 Wasserstein Loss

2. GAN训练三大问题

不收敛：模型参数震荡，损失函数不能收敛到理论值；
模式崩溃：合成的样本都趋同；
梯度消失：判别器太强，生成器的梯度消失，训练无法继续。

生成对抗网络（GAN）的模式崩溃问题

3.1 模式崩溃

GAN本质上就是在对比真实分布和生成器生成的分布。

第一：生成器生成了不真实的样本。对应于那些不真实的样本，Pg(X)>0但Pr(X)≈0，此时KL 散度中间的被积项将会趋于∞；

第二：生成器没能生成真实的样本。对应于没能生成的那些真实样本，pr(x)>0 但 pg(x)≈0，此时 KL 散度中间的被积项将会趋于 0。

GAN 中优化生成器的损失函数要求 KL 散度尽量小。第一种情形损失接近无穷，惩罚巨大，生成器就会避免生成不真实的样本；第二种情形损失接近零，惩罚非常小，因此生成器完全有可能只生成单一的真实样本，而不生成更多不同的真实样本。生成单一的真实样本已经足够欺骗判别器，生成器没有必要冒着失真的风险生成多样化的样本，模式崩溃问题由此产生。