生成式AI

神齐的小马

已于 2024-01-19 17:00:23 修改

阅读量183

点赞数

文章标签：人工智能

于 2023-06-30 19:20:01 首次发布

本文链接：https://blog.csdn.net/weixin_53196770/article/details/131481513

版权

1. 读论文

1.1. Generative Adversarial Nets （GAN）——生成式AI的开山之作

1.1.1. Framework

同时训练两个模型：生成器G（Generator）和判别器D（Discriminator），生成器G捕捉原始数据分布，判别器D判别数据属于原始数据还是生成器G生成的假数据；
训练目标是使D尽可能犯错（即G完全捕捉了原始数据分布，以假乱真）；
G和D完全由MLP定义，无需复杂的马尔可夫状态转移啊，RNN的隐空间传递啊之类的，因此可以完全由反向传播梯度下降得到很好地训练；
相较于之前的工作，本文更加聚焦于学习到原始数据分布的期望，即无需知道概率密度函数 $f(x)$ ，只需得到一组符合 $f(x)$ 的样本，其期望等于 $EX$ 即可（造假币不需要做得和真币一模一样，只需要让使用者（使用GAN模型的人）和警察（判别器模型）识别不出就好）；

1.1.2. 模型详解

整个模型的输入为 $z$ ，是一个随机噪声，服从概率分布 $p_z(z)$ （这个概率分布可以是一维均匀分布、一维高斯分布、二维均匀分布、二维高斯分布、...）；
生成器 $G(z;\theta _g)$ ，其中 $\theta _g$ 是生成器参数，输入随机噪声 $z$ 输出一个假数据样本；
判别器 $D(x;\theta _d)$ ，其中 $\theta _d$ 是判别器参数，输入一个数据样本 $x$ ，输出 $x$ 属于原始数据分布的概率（输出在 $[0,1]$ 之间）；
损失（目标）函数如下，形式有点像交叉熵，目的是为了使 $D(x)$ 尽可能接近1， $D(G(z))$ 尽可能接近0，训练 $D$ 使得损失越大越好，给定 $D$ 训练 $G$ 使得损失越小越好；
这个损失函数无法直接得到解析解，所以需要交替训练 $D$ 和 $G$ 直至收敛；

1.1.3. 模型原理的数学理解

判别器：
- 在训练的一个iteration中，判别器需要进行 $k$ 次迭代，至其暂时收敛；
- 目标函数为 $\bigtriangledown _{\theta _d}\frac{1}{m}\sum_{i=1}^{m}\left [ \log\left (D\left ( x^{(i)}\right ) \right )+ \log\left (1-D\left ( G\left ( z^{(i)} \right )\right ) \right ) \right ]$ ，通过梯度上升将其优化至最大（最接近0）；
- 从原理上看判别器的映射函数，对于原始数据分布 $p_{data}(x)$ 和噪声分布 $p_{z}(z)$ ，以及给定的生成器 $g(z)$ ，目标函数的期望为： $V(G,D)=\int _xp_{data}(x)\log\left (D(x) \right )dx + \int _zp_{z}(z)\log\left (1-D\left (g(x) \right ) \right )dz$ ，并可以进一步将 $z$ 空间映射到 $x$ 空间， $p_{g}(x)$ 为原始数据样本 $x$ 在生成器映射的分布 $V(G,D)=\int _x\left [p_{data}(x)\log\left (D(x) \right ) +p_{g}(x)\log\left (1-D(x) \right ) \right ]dx$ ；
- 因此可以将这个期望的优化再转为目标函数优化，即对任意样本 $x$ ，判别器都可以将其映射为一个值 $y=D(x)$ ，使得 $a\log(y)+b\log(1-y)$ 达到最大值，则整体积分也就达到了最大值，而对 $a\log(y)+b\log(1-y)$ 求解析解可得，当 $y=D(x)=\frac{a}{a+b}$ 时，其整体达到最大值，因此对原始数据分布 $p_{data}(x)$ 和给定生成器分布 $p_{g}(x)$ ，最优判别器为 $D_G^*(x)=\frac{p_{data}(x)}{p_{data}(x)+p_g(x)}$ ；
生成器：
- 当判别器 $D_G^*(x)=\frac{p_{data}(x)}{p_{data}(x)+p_g^{old}(x)}$ 给定时，生成器需要调整 $p_{g}(x)$ ，使得损失函数最小（损失函数还是上面的目标函数，只是优化约束和目标变了），变为 $C(G)=\int _x\left [p_{data}(x)\log\left (\frac{p_{data}(x)}{p_{data}(x)+p_{g}^{old}(x)} \right ) +p_{g}(x)\log\left (\frac{p_{g}(x)}{p_{data}(x)+p_{g}(x)} \right ) \right ]dx$ ，其中 $p_{g}^{old}(x)$ 是上一步训练判别器时固定的生成器，因为这里判别器固定不变，所以 $D_G^*(x)=\frac{p_{data}(x)}{p_{data}(x)+p_g^{old}(x)}$ 固定不变，训练的是第二项的 $p_{g}(x)$ ，因此目标函数也可以简化为 $C(G)=\int _x\left [p_{g}(x)\log\left (\frac{p_{g}(x)}{p_{data}(x)+p_{g}(x)} \right ) \right ]dx$ ；
- 引入KL散度，则进一步化为 $C(G)=KL\left (p_{g}|| p_{data}+p_{g} \right )$ ，但这个函数无法利用到KL散度的性质来简化问题，因此对其进行调整为： $\int _x\left [p_{g}(x)\left [\log\left (\frac{p_{g}(x)}{\left [p_{data}(x)+p_{g}(x) \right ]/2} \right ) -\log2 \right ] \right ]dx$ ，进一步化为 $C(G)=KL(p_{g}||\frac{p_{data}(x)+p_{g}(x)}{2})-\log2$ ；
- KL散度 (Kullback-Leibler divergence) ：给定两个分布 $P(x)$ 和 $Q(x)$ ，计算二者的非对称度量， $KL(P||Q)=E(\log\frac{P(x)}{Q(x)})$ ，具体而言，KL散度的公式为： $KL(P||Q)=\sum P(x)\log\frac{P(x)}{Q(x)}$ （离散）和 $KL(P||Q)=\int P(x)\log\frac{P(x)}{Q(x)}dx$ （连续），通常 $P(x)$ 和 $Q(x)$ 一个为真实分布，另一个为模型拟合的分布，而KL散度越大则这两个分布的信息损耗越大，当 $P(x)$ 和 $Q(x)$ 为完全相同的分布时，KL散度最小，为0；
- 通过引入KL散度，可得当 $p_{data}=\frac{p_{data}(x)+p_{g}(x)}{2}=p_g$ 时， $C(G)$ 达到最小值，为 $-\log2$ ，因此通过对损失函数求梯度进行反向传播，生成器生成的数据分布会不断接近原始数据分布；
- 当然也可以从JS散度（Jensen-Shannon Divergence）来理解，公式为 $JSD(P||Q)=\frac{1}{2}KL(P||\frac{P+Q}{2})+\frac{1}{2}KL(Q||\frac{P+Q}{2})$ ，JS散度也是度量两个分布相似度的，不同于KL散度的是，JS散度是完全对称的，因此若原损失函数不化简第一项，则可以化为 $\begin{aligned} C(G)&=KL(p_{data}||\frac{p_{data}(x)+p_{g}(x)}{2})-\log2+KL(p_{g}||\frac{p_{data}(x)+p_{g}(x)}{2})-\log2\\&=2\cdot JSD(p_{data}||p_g)-2\log2 \end{aligned}$ ，同样可以得出上面的结论；

1.1.4. GAN的优缺点

优点：
- 交替训练的方法避免了出现“the Helvetica scenario”式的模式崩溃，指的是模型学到了一种生成器会使所有（或大部分）噪声输入都生成了同一张图像，如果这张图像正好符合原始数据分布，则确实可以达到模型收敛的条件，但不符合我们的需要；
- 模型拟合的是分布的期望而不是分布本身，这个思想天然解决了过拟合的问题，并使得模型可以很容易地拟合恶化的、尖锐的分布（马尔可夫链的状态转移需要分布平滑）；
- 训练过程不复杂，只需要反向传播和梯度下降；
缺点：
- 不能显式表示出数据分布；
- 必须交替训练而不能同步进行；

1.2. Denoising Diffusion Probabilistic Models（DDPM）

1.2.1. 问题定义

为了增强图片生成效果，采用一种加噪（前向过程）+降噪（反向过程）的方法，对样本图片进行加噪处理，并使其噪声逐渐满足高斯分布，再学习降噪方法，将样本图片还原，这样让模型掌握利用一定的随机噪音来完成高质量图片生成能力；
模型需要学习到的实际上是 $x_t\rightarrow p(x_{t-1}|x_t)$ 能力；
此处的 $p(x_{t-1}|x_t)$ 应当是一个分布而不是一个具体的样本，由 $x_t$ 推得 $x_{t-1}$ 的一系列分布，可以使模型的生成效果更加多元化。

1.2.2. 传播过程推导

根据贝叶斯公式： $p(x_{t-1}|x_t) = \frac{p(x_{t}|x_{t-1})p(x_{t-1})}{p(x_t)}$ ；
加噪过程是将 $x_{t-1}$ 与一个标准高斯噪音加权得到 $x_{t}$ ： $x_t = \sqrt{\alpha_t}\cdot x_{t-1} + \sqrt{\beta_t}\cdot \varepsilon_{t}$ ，其中 $\varepsilon _t\sim N(0, 1)$ 是标准高斯分布， $\beta_t = 1-\alpha_t$ （ $\beta_t$ 很小接近于0），在确定输入 $x_{t-1}$ 的前提下满足 $x _t\sim N(\sqrt{\alpha_t}\cdot x_{t-1}, \beta _t)$ ，可得 $p(x_{t}|x_{t-1})$ ；
$p(x_t)$ 和 $p(x_{t-1})$ 不好求解，但是因为 $x_{t-1}$ 是由 $x_{0}$ 的分布一路推导过来， $\begin{aligned} x_t &= \sqrt{\alpha_t}\cdot x_{t-1} + \sqrt{\beta_t}\cdot \varepsilon_{t} \\ &= \sqrt{\alpha_t}\cdot (\sqrt{\alpha_{t-1}}\cdot x_{t-1} + \sqrt{\beta_{t-1}}\cdot \varepsilon_{t-1}) + \sqrt{\beta_t}\cdot \varepsilon_{t}\\ &=...=\sqrt{\widetilde{\alpha _t}}\cdot x_0+\gamma \cdot \varepsilon \end{aligned}$ ，其中 $\widetilde{\alpha _t}=\alpha_t\cdot...\cdot\alpha_{1}$ ， $\gamma\approx \sqrt{1-\widetilde{\alpha _t}}$ ，因此可以得到 $p(x_{t-1}|x_0)$ ， $p(x_{t}|x_0)$ ， $x_t\sim N(\sqrt{\widetilde{\alpha _t}}\cdot x_0,(1-\widetilde{\alpha _t}))$ ；
因此贝叶斯公式写作： $p(x_{t-1}|x_t,x_0) = \frac{p(x_{t}|x_{t-1})p(x_{t-1}|x_0)}{p(x_t|x_0)}$ ，并根据上面的推导可得 $x_{t-1}\sim N(\widetilde{\mu }(x_0,x_t),\widetilde{\beta _t})$ ，其中 $\widetilde{\beta _t}$ 是由众多 $\alpha_i,\beta_i$ 计算得来的常数， $\widetilde{\mu }(x_0, x_t)$ 是一个 $x _t$ 和 $x _0$ 的函数，便得到了 $p(x_{t-1}|x_t,x_0)$ ，而通过 $x _t$ 和 $x _0$ 可以得到 $x_{t-1}=\widetilde{\mu }(x_0,x_t)+\widetilde{\beta _t}\cdot \varepsilon$ ，同样会根据分布 $p(x_{t-1}|x_t,x_0)$ 算得不同的 $x_{t-1}$ ；
经推导， $\widetilde{\mu }(x_0, x_t)=\frac{\sqrt{\widetilde{\alpha }_{t-1}}\cdot \beta _t}{1-\widetilde{\alpha }_t}x_0+\frac{\sqrt{\alpha_{t}}\cdot (1-\widetilde{\alpha }_{t-1})}{1-\widetilde{\alpha }_t}x_t$ （推导过程略），将 $x_0 \approx ( x_t- \sqrt{1-\widetilde{\alpha _t}}\cdot \varepsilon)/\sqrt{\widetilde{\alpha _t}}$ 带入可以推导得 $\widetilde{\mu }(x_0, x_t)=\frac{1}{\sqrt{\alpha _t}}(x_t-\frac{\beta _t}{\sqrt{1-\widetilde{\alpha }_t}})$ .

1.2.3. 对模型的理解

模型降噪的过程其实可以理解为一个噪音预测模型，输入一个带有噪声的图片，模型可以预测出其中的噪声，再从图片中减去这个噪声；
一般该模型的前向传播长度 $T$ 比较大，取1000常见，因为在前向传播过程中，为了防止信息丢失，每两步之间添加的噪声比较小，即 $x_t = \sqrt{\alpha_t}\cdot x_{t-1} + \sqrt{\beta_t}\cdot \varepsilon_{t}$ ，其中 $\beta_t = 1-\alpha_t$ （ $\beta_t$ 很小接近于0），但想要最终的 $x_t \approx \sqrt{\widetilde{\alpha _t}}\cdot x_0+\sqrt{1-\widetilde{\alpha _t}} \cdot \varepsilon$ 尽可能接近高斯噪声，因此 $\widetilde{\alpha _t}=\alpha_t\cdot...\cdot\alpha_{0}$ 要尽可能接近0，这就需要 $T$ 取非常大；
为什么要令 $\beta_t = 1-\alpha_t$ ？这也是为了最终 $x_t \approx \sqrt{\widetilde{\alpha _t}}\cdot x_0+\sqrt{1-\widetilde{\alpha _t}} \cdot \varepsilon$ 可以接近标准高斯分布所做的设计，具体推导过程可以试着推一下 $x_t = \sqrt{\alpha_t}\cdot x_{t-1} + \sqrt{\beta_t}\cdot \varepsilon_{t} = \sqrt{\alpha_t}\cdot (\sqrt{\alpha_{t-1}}\cdot x_{t-1} + \sqrt{\beta_{t-1}}\cdot \varepsilon_{t-1}) + \sqrt{\beta_t}\cdot \varepsilon_{t}=...=\sqrt{\widetilde{\alpha _t}}\cdot x_0+\gamma \cdot \varepsilon$ 这个式子；
因为 $x_t =\sqrt{\widetilde{\alpha _t}}\cdot x_0+\gamma \cdot \varepsilon$ ，所以似乎有一层关系是 $x_0 =( x_t-\gamma \cdot \varepsilon)/\sqrt{\widetilde{\alpha _t}}\approx ( x_t- \sqrt{1-\widetilde{\alpha _t}}\cdot \varepsilon)/\sqrt{\widetilde{\alpha _t}}$ ，但不可以通过 $x _t$ 直接推算 $x _0$ ，这样不符合马尔可夫性，必须一步步传播回去；

2. 各种传统生成式模型详解

2.1. 极大似然估计

2.1.1. 基本思路

生成式模型本质是已知数据 $Data:\{x_1, \cdots, x_n\}$ ，这些数据服从一个隐藏的分布 $p_{data}(x)$ ，而模型可以从中学习一个分布 $p_{g}(x)$ ，并优化模型参数使 $p_{g}(x)$ 尽可能接近 $p_{data}(x)$ ；
既然是对分布的学习，进一步可以认为是对参数的学习，则当分布的形式已知时，可以使用极大似然估计来求解参数，即 $\hat{\theta}=argmax \sum_{i=1}^N\log\left [ p_g(x_i;\theta) \right ]$ ；

2.1.2. KL散度的理解

KL散度 (Kullback-Leibler divergence) ：给定两个分布 $P(x)$ 和 $Q(x)$ ，计算二者的非对称度量， $KL(P||Q)=E(\log\frac{P(x)}{Q(x)})$ ，具体而言，KL散度的公式为： $KL(P||Q)=\sum P(x)\log\frac{P(x)}{Q(x)}$ （离散）和 $KL(P||Q)=\int P(x)\log\frac{P(x)}{Q(x)}dx$ （连续），通常 $P(x)$ 和 $Q(x)$ 一个为真实分布，另一个为模型拟合的分布，而KL散度越大则这两个分布的信息损耗越大，当 $P(x)$ 和 $Q(x)$ 为完全相同的分布时，KL散度最小，为0；
极大似然估计也可以理解为，最小化 $p_{g}(x)$ 和 $p_{data}(x)$ 的KL散度，即 $\hat{\theta}=argmin E_{p_{data}}\left [\log p_{data}(x)-\log p_g(x)\right ]$ ，因为 $p_{data}(x)$ 和参数无关，因此可以简化为 $\hat{\theta}=argmax E_{p_{data}}\left [\log p_g(x)\right ]$ ，则进一步可以化为 $\hat{\theta}=argmax \sum_{i=1}^N\log\left [ p_g(x_i;\theta) \right ]$ ；
这里如果直接带入KL散度的离散公式，则为 $\hat{\theta}=argmax E_{p_{data}}\left [\log p_g(x)\right ]=argmax \sum_{i=1}^N\left [p_{data}(x)\cdot\log p_g(x)\right ]$ ，但实际上 $P(x)=p_{data}$ 也是根据统计得来的，或者说， $p_{data}(x_i)=\frac{\text{number of } x=x_i}{N}$ ，因此可以直接写成累加和的形式，即为极大似然估计的优化函数；

2.2. 完全可见置信网络 (Fully visible belief network，FVBN)

2.2.1. 自回归模型

$p(x)=\prod _{i=1}^Np(x_i|x_1,\cdots,x_{i-1})$

自回归模型是最简单的完全可见置信网络，每个生成样本的概率分布都是以其前面所有数据为条件的条件概率分布，而模型要学习的就是这个条件概率分布；
线性自回归网络使用线性函数来拟合每一个概率分布，但拟合能力不足；
神经自回归网络使用神经网络代替线性函数，拟合能力大大增加，同时还用到了特征重用的技巧，即之前的样本通过神经网络提取了隐特征可以在后面直接被复用，其中比较有代表性的是神经自回归密度估计器，其使用了参数共享的考虑性能进一步提升；

2.2.2. WaveNet

WaveNet是谷歌提出的自回归语音生成模型，采用的方法是对语音信号值做了特征提取后进行空洞因果卷积；

2.2.3. PixelRNN

一般用于图像生成，同样是用模型来拟合条件概率分布，从图像一角的一个像素开始，依次以之前的像素估计下一个像素，这个估计的参数就是模型带训练参数；

2.2.4. PixelCNN

和PixelRNN一样用于图像生成，不同的是使用CNN替代了RNN，卷积核扫到的框中有已知像素和未知像素，也有一个待生成像素，使用所有已知像素输入模型得到待生成像素，再继续向下扫描；
Gated PixelCNN将感受野拆分为水平和垂直两个方向，进一步提升了生成质量，但由于像素之间依然存在依赖关系，无法并行计算，生成效率很低；

2.3. 流模型

2.3.1. 流模型简介

流模型是一种想法较为直接，但构建起来比较困难的模型，假设隐变量分布较为简单，观测变量分布复杂，若存在某种非线性变换使得 $x=g(z),z=g^{-1}(x)=f(x)$ ，则可以通过对隐空间的采样得到生成数据；
因为非线性变换会引起空间变形，因此 $p_x(x)\neq p_z(f(x))$ ，而是 $p_x(x)=p_z(f(x))\cdot \left | \det \frac{\partial f}{\partial x} \right |$ ；
雅各比矩阵的计算是流模型构建的一大难点，因此流模型常常使用多个映射函数近似，则总的雅各比矩阵行列式可以用每层雅各比矩阵行列式相乘得到，这个思想类似于多层神经网络的计算，但流模型使用更加显式的概率计算模型进行每层的映射，根据每层映射的方法分为多种流，下面介绍两种基本的流：
- 仿射流（affine flow）： $f(x)=A^{-1}(x-b)$ ，将观测变量的分布映射到近似标准正态分布，方阵 $A$ 的行列式即为雅各比矩阵；
- 元素流（element-wise flow）：每层映射逐元素进行，即 $z=[z_1,z_2,\cdots,z_k]^T=[f(x_1),f(x_2),\cdots,f(x_k)]^T$ ，雅各比矩阵为对角行列式 $\left | \det (\frac{\partial f}{\partial x}) \right |=\prod_{i=1}^k f^{'}(x_i)$ ；

2.3.2. NICE

NICE模型是一种先进且易构建的流模型，其逆变换由多个加性耦合层和一个尺度变换层组成：
- 加性耦合层：将观测样本 $x$ 按照维度划分为两个部分 $x_a$ 和 $x_b$ ，例如可以设 $x_a=[x_1,x_3,x_5,\cdots]^T$ ， $x_b=[x_2,x_4,x_6,\cdots]^T$ ，而每个加性耦合层的计算方法为： $h_a=x_a,h_b=x_b+m(x_a)$ ，其中 $m(\cdot )$ 可以是任意函数，但是需要保证输出维度和 $x_b$ 相同，则其反变换为 $x_a=h_a,x_b=h_b-m(h_a)$ ，雅各比矩阵为 $\begin{bmatrix} I_a & 0 \\ \frac{\partial m}{\partial h_a} & I_b \end{bmatrix}$ ，行列式为1，这样的多个加性耦合层串联可以兼具计算的简易性和信息混合的充分性；
- 加性耦合层的函数 $m(\cdot )$ 可以用神经网络+激活函数进行拟合；
- 尺度变换层：直接用最后一层加性耦合层的输出 $h$ 逐元素乘以一个全元素非0的放缩向量 $s$ ，逆运算即为除以这个向量，雅各比矩阵为该向量元素的对角矩阵；
基于NICE思想的衍生模型也有很多，例如OpenAI的Glow在耦合层中引入卷积操作以捕捉图像数据的分布，但流模型固有的计算成本大的问题无法解决，因此比VAE、GAN等模型应用少一些；

2.4. 变分自编码器（VAE）

2.4.1. 模型表示

VAE是将概率图模型的思路（变分推断）和神经网络相结合的模型；
在VAE之前的生成模型中，主流思想是一种autoregression的方法，即一种补全的思想，例如捕捉图像中像素点之间的相关性，使用一个随机的像素生成一整张图，本质上是用观测变量的一个或多个维度生成全部维度；
VAE则是一种LVM（latent variable models），即引入高阶隐变量，基于高阶隐变量的建模 $p(x|z)$ ，使得模型直接从隐变量 $z$ 中采样即可得到生成的数据，更好地学习到显示的数据分布，十分优雅；
要使模型学习到 $p(x|z)$ ，就需要计算后验概率 $p(z|x)=\frac{p(x|z)p(z)}{p(x)}$ ，使其最大化的过程中学习 $p(x|z)$ ，但因为隐变量 $z$ 的维度很高，因此直接计算 $p(x)=\int _zp(x,z)dz\int _zp(x|z)p(z)dz$ 非常困难，因此就需要用到变分推断的方法；
VAE模型可以认为是 $K=\infty$ 的高斯混合模型（GMM），而隐变量 $z$ 设为服从高斯分布 $z\sim N(\mu_z,\Sigma_z)$ ，实际问题中为了简化，可以设 $z\sim N(0,I)$ ；
对于隐变量到观测变量的生成过程，可以将模型参数化，即 $z|x\sim N(\mu_{\theta}(x), \Sigma_{\theta}(x))$ ，即每个样本 $x^{(i)}$ 都有对应一组参数 $\theta^{(i)}$ 对应一个高斯分布，而该样本的隐变量服从这个唯一的高斯分布，每个高斯分布的参数都可以用神经网络拟合；
因此，VAE模型引入两个假设：
- 预设定隐变量 $z\sim N(0, I)$ 是个高维标准高斯分布；
- 对于一组模型参数 $\theta$ ， $z|x\sim N(\mu_{\theta}(x), \Sigma_{\theta}(x))$ ；
VAE模型结构也由编码器和解码器组成：
- $X\xrightarrow[Encoder]{{\theta_1}}Z$ ，学习 $z|x\sim N(\mu_{\theta_1}(x), \Sigma_{\theta_1}(x))$ ；
- $Z\xrightarrow[Decoder]{{\theta_2}}X$ ，学习从随机抽取的隐变量 $z$ 映射到新生成数据的参数；

2.4.2. 模型训练

根据EM算法和变分推断中的推导，对模型参数 $\theta$ 进行推断，就是最大化 $\log p_{\theta}(X)$ 的迭代过程，同时也是最大化变分下界ELBO的过程，因此模型目标函数即为 $ELBO=E_{q_{\phi}(Z|X)}\left[ \log P_{\theta}(X|Z) \right ]-KL(q_{\phi}(Z|X)\ ||\ P_{\theta}(Z))$ ；
对ELBO的第二项，基于两个假设，可得 $P_{\theta}(Z)=N(0,I)$ ，没有需要学习的参数， $q_{\phi}(z^{(i)}|x^{(i)})= N(\mu_{\theta}(x^{(i)}), \Sigma_{\theta}(x^{(i)}))$ ，分别用两个神经网络拟合均值和方差的对数（方差恒大于0，其对数的值域是全体实数，更符合神经网络的训练，无需再用激活函数什么的限定），完成编码器的训练；
对ELBO的第一项，因为一个样本 $x^{(i)}$ 对应一个隐变量 $z^{(i)}$ ，因此 $z^{(i)}|x^{(i)}\sim N(\mu_{\theta}(x^{(i)}), \Sigma_{\theta}(x^{(i)}))$ 应当是一个尖锐的单峰分布，所以 $E_{q_{\phi}(Z|X)}\left[ \log P_{\theta}(X|Z) \right ]\approx \log P_{\theta}(X|Z)$ ，无需对所有z求期望，简化了无限维z无法求积分的问题，而最大化 $\log P_{\theta}(X|Z)$ 的过程类似于分类/回归任务，输入为Z输出为X，若X服从离散分布则视为分类任务，使用交叉熵作为损失函数，若X服从连续分布则视为回归任务，使用MSE作为损失函数，完成解码器训练；
但VAE存在一个问题，当通过编码器得到隐变量 $z$ 的分布后，从该分布中随机采样得到一个生成的隐变量样本，送入解码器生成数据，但此时编码器的信息会丢失，即采样得到的这个新的 $z$ 与已知的 $X$ 解耦，失去了联系，不知道 $z$ 是从哪个分布中得到的，同时解码器和编码器各自训练，反向传播断开，使得生成效果会很差；
为了解决上述问题，使用重参数化技巧，即通过编码器得到某个分布 $N(\mu_{\theta}(x^{(i)}), \Sigma_{\theta}(x^{(i)}))$ 后，放弃原本的随机采样策略，引入一个误差项 $\varepsilon$ ，而新生成的隐变量 $z=\mu+\varepsilon \cdot \Sigma$ ，如此反向传播被打通，编码器和解码器可以同步训练，生成效果提升；

2.5. 玻尔兹曼机

作为一种显式传统概率模型，基于能量的思想提出，现在已经很少引起关注，有点累了之后再补……

3. 生成对抗网络GAN

3.1. 目标函数优化

该部分内容在1.1.中详细介绍，可以往上参考；
在实际训练中，GAN的训练过程可以表示如下：
- for 训练 epoch：
  - 固定生成器，训练判别器
  - for 一个epoch中训练 k 步判别器：
    - 从 $p_z(z)$ 中采样N个隐变量，用生成器生成 $G(z)$
    - 根据目标函数 $\underset{\theta}{\max} \frac{1}{N} \sum_{i=1}^N[\log D(x^{(i)})+\log(1-D(G(z^{(i)})))]$ 计算梯度，训练判别器
  - 固定判别器，训练生成器
  - 从 $p_z(z)$ 中采样N个隐变量，用生成器生成 $G(z)$
  - 根据目标函数 $\underset{\phi }{\min} \frac{1}{N} \sum_{i=1}^N[\log(1-D(G(z^{(i)})))]$ 计算梯度，训练生成器
在训练早期，因为生成器能力较差，而判别模型比较容易训练，所以 $D(G(z))$ 很容易接近0，则生成器的训练梯度较小，收敛缓慢，为了解决这个问题，可以在训练的前期使用非饱和形式的损失函数 $V(G,D)=\int _x\left [p_{g}(x)\log\left (-D(x) \right ) \right ]dx$ ，使梯度更大，但其后期梯度变小，需要改为原来的目标函数；

3.1.1. 最小二乘GAN（Least Squares GAN，LSGAN）

GAN训练的梯度消失问题：除了上文中提到的训练初期生成器梯度较小以外，在训练中也可能出现梯度消失问题，即某个epoch生成器训练完成后，虽然其并不能拟合真实分布，但出于采样的某些巧合，判别器无论怎么训练也无法分辨生成数据，此时模型进入假性收敛，再训练生成器时其梯度会很小，或者可以说判别器无法向生成器提供任何信息，使得训练进入死局；
LSGAN认为，GAN产生梯度消失的原因是对于那些偏离真实分布却碰巧判别为真实分布的生成数据，没有施加合适的惩罚，因此将最小二乘法的思想引入损失函数，即 $\left\{\begin{matrix} \underset{\theta}{\min}\frac{1}{2}\left \{E_{p_{data}}[(D(x)-b)^2]+E_{p_{z}}[(D(G(z))-a)^2] \right \} ,& Discriminator \\ \underset{\phi}{\min}\frac{1}{2}\left \{E_{p_{z}}[(D(G(z))-c)^2] \right \} , & Generator \end{matrix}\right.$ ，其中 $a,b,c$ 是我们希望得到的数值，使得模型训练就是让三个判别结果接近 $a,b,c$ 的过程；
的赋值方案通常有两种：
- $a=0,b=c=1$ ，思想与原来的GAN一致，使判别器尽可能分辨真实数据和生成数据，生成器尽可能使判别器分类错误；
- $a=-1,b=1,c=0$ ，这个赋值的思想是，当 $b-c=1,b-a=2$ 时，生成器优化的是 $p_{data}+p_g$ 和 $2p_g$ 之间的皮尔斯卡方散度；

3.1.2. 基于能量的GAN（Energy based GAN，EBGAN）

DeepLearning大牛Yann LeCun在2006年首次将能量模型的思想引入机器学习，定义一个能量计算函数，每个样本可以输入函数计算一个能量值，能量越高的越活跃，能量越低的越趋于稳定，物质趋向于由高能量态活动到低能量态，例如赋予分类错误的样本高能量，赋予分类正确的样本低能量；
EBGAN是一种将能量模型应用于GAN的成功尝试，其将GAN中的判别器改为一个能量比较器，判别器会令原始数据位于低能量态，生成数据位于高能量态，因此目标函数变为 $\left\{\begin{matrix} \underset{\theta}{\min}E_{p_{data}}[D(x)]+E_{p_{z}}[m-D(G(z))],& Discriminator \\ \underset{\phi}{\min}\left \{E_{p_{z}}[D(G(z))] \right \} , & Generator \end{matrix}\right.$ ，其中m是能量上限，在实际训练中，m取得过大容易造成梯度过大，训练不稳定，过小容易导致生成数据失真，建议从一个较大的m开始训练并逐渐减小；
正则自编码器：自编码器的结构是 $X\rightarrow Encoder\rightarrow Z\rightarrow Decoder\rightarrow \hat{X}$ ，从而获得隐变量分布或是数据的紧凑表示 $Z$ ，支撑下游任务，或对数据进行重构以增强数据，但是自编码器很容易训练成一个简单的恒等映射，即 $\hat{X}==X$ 且 $Z$ 没有实际意义，因此需要对自编码器施加正则化约束，使其从数据中学习重要的信息而不是全部的信息；
前文中对GAN的理解主要是基于概率模型（Probability-based model，PBM），判别器需要提供的信息是原始数据分布和生成数据分布之间的差异，不管用KL散度，JS散度还是皮尔斯卡方散度的角度，然后让生成器根据这个差异来把生成数据拉回原数据分布，类似一个吸管，而要做到同样的任务还可以用基于能量模型（Energy-based model，EBM）的思想，不再关注 $p_{data}$ 和 $p_g$ 之间的通道，而是关注 $p_{data}$ ，使得四面八方的点都向 $p_{data}$ 而来，类似一个磁铁，这种思想可以更好地解决判别器无法提供信息的问题；
EBGAN的创新是讲判别器改为一个能量比较器，具体来说，判别器的结构是一个自编码器，输入样本数据输出其重构数据，并计算二者的均方误差作为能量数值 $Energy(X)=\left \| X-\hat{X} \right \|^2$ ，而这个判别器被设定尽量学习真实数据进行训练，因此真实数据重构质量较高，输出的能量值低，其他数据都会输出较高能量，而生成数据也会为自编码器引入正则化惩罚，使其并不会复制原始数据的全部信息；
为了避免EBGAN模型只学习到一个样本的信息导致所有生成数据都与这一个样本相似（这也会使模型收敛），可以引入PT项（Pulling-away term）惩罚，即对于输入判别器的样本，我们希望样本经过自编码器后会得到相互不同的表示，因此可以使用余弦相似度量化各个样本表示的差异，作为惩罚项，即 $f_{PT}(S)=\frac{1}{N(N-1)}\sum_i\sum_{j\neq i}(\frac{s_i^Ts_j}{\left \| s_i \right \| \left \| s_j \right \|})$ ；

3.1.3. f GAN —— GAN的生产车间

f GAN不是一种新的模型，而是对分布差异进行了讨论，便于判别器从更恰当的角度提供原始数据和生成数据的分布的差异信息，从而提高生成器性能，基础GAN中使用的分布差异度量是JS散度（或KL散度），LSGAN中使用的是皮尔斯卡方散度，而f GAN中提出了更加全面的 f 散度，统一了所有度量函数；
f 散度：
- 始于对KL散度的一般化 $D_f(P||Q)=\int q(x)f(\frac{p(x)}{q(x)})dx$ ，KL散度只要让 $f(u)=u\log(u)$ 即可；
- 对函数的要求有三个：
  - 非负实数到全体实数的映射；
  - $f(1)=0$ ，反映两个分布完全相同时距离为0；
  - 全定义域可导的凸函数；
- f 散度恒正（根据皮尔斯不等式）： $D_f(P||Q)=E_q\left [f(\frac{p(x)}{q(x)}) \right ]\geqslant f(E\left [ \frac{p(x)}{q(x)} \right ] )\geqslant f(\int p(x)dx)=f(1)=0$ ；
- f 散度的定义其实并不满足一般公理化的“距离”计算，但影响不大；
- f 散度推导：
  - 对函数 $y=f(u)$ 在 $u_0$ 点处的切线表达式为： $y=f(u_0)+f'(u_0)\cdot(u-u_0)$ ；
  - 因为凸函数，函数恒在切线上方，即 $f(u)\geqslant f(u_0)-f'(u_0)\cdot(u-u_0)$ ；
  - 因此可得 $f(u)=\underset{u_0}{\max} \ \left \{f(u_0)-f'(u_0)\cdot(u-u_0) \right \}$ ；
  - 记 $t=f'(u_0)$ ，则 $t$ 和 $u_0$ 相关，再定义 $g(t)=-f(u_0)+f'(u_0)\cdot u_0$ ，则 $f(u)=\underset{t}{\max} \ \left \{tu-g(t) \right \}$ ，因此通过求解 $t$ ，可以将任意凸函数近似为一个线性函数，这里的 $g(t)$ 被称为 $f(u)$ 的共轭函数，但定义域内的每个 $u$ 都需要求解一个对应的 $t$ ，因此可以用神经网络拟合 $t$ 和 $u$ 的关系，即 $t=T(u)$ ， $f(u)=\underset{Neural\ Network\ T}{\max} \ \left \{T(u)u-g(T(u)) \right \}$ ；
  - 带入 f 散度得： $\begin{aligned} D_f(P||Q)&=\underset{T}{\max}\int q(x)\left[ \frac{p(x)}{q(x)}T\left (\frac{p(x)}{q(x)} \right ) - g\left ( T\left ( \frac{p(x)}{q(x)} \right ) \right ) \right ]dx\\ &=\underset{T}{\max}\int \left[ p(x)\cdot T\left (\frac{p(x)}{q(x)} \right ) -q(x)\cdot g\left ( T\left ( \frac{p(x)}{q(x)} \right ) \right ) \right ]dx\\ &=\underset{T}{\max}\left \{E_p\left [T\left (\frac{p(x)}{q(x)} \right ) \right ] -E_q \left [g\left ( T\left ( \frac{p(x)}{q(x)} \right ) \right ) \right ] \right \}\\ \end{aligned}$ ；
因此 f GAN不再训练一个分类器，而是训练函数 $T\left ( \frac{p(x)}{q(x)} \right )$ ，使得 f 散度最大，也就是使得对于任意原始数据和生成数据，都可以全函数域寻找 $E_p\left [T\left (\frac{p(x)}{q(x)} \right ) \right ]$ 和 $E_q \left [g\left ( T\left ( \frac{p(x)}{q(x)} \right ) \right ) \right ]$ 最大的差异，从而将 $p(x)$ 和 $q(x)$ 分布的差异体现出来，这个寻找的过程是神经网络自动拟合，使得无需手动选择损失函数，就可以根据任意设计的 $g\left ( t \right )$ 来自动寻找到最恰当的方式计算原始数据和生成数据的分布差异，同时如果需要特定计算方法也可以预推导 $g\left ( t \right )$ （如下第二张图，激活函数用于限制T函数的值域，使其输出符合规定的计算方法）：

3.1.4. Wasserstein GAN（WGAN）

分布度量的问题：WGAN发现，GAN在训练时出现梯度消失问题的一大重要原因是，JS散度等传统分布差异度量方法无法提供无交叉分布差异的梯度信息：
- 举例来说，p和q都是直线上的均匀分布，p分布在 $(0,0)\rightarrow (0,1)$ ，q分布在 $(\theta,0)\rightarrow (\theta,1)$ ，则 $JSD(P||Q)=\left\{\begin{matrix} \log2 & \theta \neq 0\\ 0 & \theta=0 \end{matrix}\right.$ ，因此当 $\theta \neq 0$ 时，JS散度无法提供梯度信息使得两个分布逐渐靠拢；
- 而当q分布在 $(0,\theta)\rightarrow (0,\theta+1),\ 0<\theta<1$ 时，p和q存在长度为 $(1-\theta)$ 的交叉部分，则 $JSD(P||Q)=\theta \log2$ ，此时的JS散度可以提供梯度信息使模型得到学习；
- 但在高维分布中，两个分布很容易出现无交叉的情况，所以无论是JS散度、KL散度或是总变分距离等一般度量，都很容易因为这个原因导致梯度消失现象；
有一个解决上述问题的方法是，在两个分布中都添加一定的高斯噪声，使其弥散到更大的空间，极大地增加交叉的概率，并随着训练，两个分布越来越接近，自身产生了更多交叉时，减小高斯噪声的方差，但这个方法并不能高效解决问题；
Wasserstein距离：
- 先上公式：对于两个分布 $p(x)$ 和 $q(y)$ ，二者存在某种联合分布 $\gamma (x,y)$ （ $\int \gamma(x,y)dy=p(x),\int \gamma(x,y)dx=q(y)$ ），则它们的Wasserstein距离为 $W[p(x),q(y)]=\underset{\gamma \in \prod}{\inf}\iint\gamma(x,y)|x-y|dxdy$ ，其中 $\prod$ 是所有可能的联合分布 $\gamma$ 的集合， $\underset{\gamma \in \prod}{\inf}$ 则表示在 $\prod$ 中找到一种令 $\iint\gamma(x,y)|x-y|dxdy$ 最小的 $\gamma$ ，而该值作为Wasserstein距离；
- 这个公式又叫推土距离，衡量了使 $x=y$ 的最小重构距离，使得不重叠的两个分布也可以度量差异，有点类似于下图的推土的过程；
WGAN详解：
- WGAN主要是将Wasserstein距离的思想引入GAN训练中，来解决经典GAN网络中的梯度消失问题，先介绍目标函数： $\left\{\begin{matrix} \underset{f_w}{\max}E_{p_{data}}[f_w(x)]-E_{p_{z}}[f_w(G(z))],& Discriminator \\ \underset{G}{\min}\left \{-E_{p_{z}}[f_w(G(z))] \right \} , & Generator \end{matrix}\right.$ ，有点类似于 f GAN ，也是抛弃了经典基于分类的判别器，改为寻找某种函数 $f_w$ ，使判别器可以提供两个分布的差异信息，使生成器得到有效学习；
- 目标函数推导：
  - 定义问题中的各个矩阵/向量：
    - 联合概率向量： $\Gamma_{(K^2\times 1)}=\left[ \gamma(x_{data}^{(1)},x_{g}^{(1)}),\gamma(x_{data}^{(1)},x_{g}^{(2)}),\cdots,\gamma(x_{data}^{(2)},x_{g}^{(1)}),\gamma(x_{data}^{(2)},x_{g}^{(1)}) ,\cdots \right ]^T$ ，是将数据每个维度的联合概率拉平成向量；
    - 距离向量： $D_{(K^2\times 1)}=\left[ d(x_{data}^{(1)},x_{g}^{(1)}),d(x_{data}^{(1)},x_{g}^{(2)}),\cdots,d(x_{data}^{(2)},x_{g}^{(1)}),d(x_{data}^{(2)},x_{g}^{(1)}) ,\cdots \right ]^T$ ，与联合概率向量一一对应，因此记 $d(x,y)=|x-y|$ ， $<A,B>=[a_1\cdot b_1,a_2\cdot b_2,\cdots]^T$ （逐元素相乘），则 $<\Gamma,D>=\iint\gamma(x,y)|x-y|dxdy$ ，以此来计算某一种联合概率分布情况下的两个分布的距离，当这个距离取到最小时即为Wasserstein距离；
    - 再定义用于约束的矩阵/向量：设 $1_N=[1,1,\cdots]^T,0_N=[0,0,\cdots]^T$ ，则有 $[1_K^T,0_K^T,0_K^T,\cdots]\cdot\Gamma=\sum_{i=1}^K\gamma(x_{data}^{(1)},x_g^{(i)})=p_{data}(x_{data}^{(1)})$ ， $[E_K,E_K,E_K,\cdots]\cdot\Gamma=\left [\sum_{i=1}^K\gamma(x_{data}^{(i)},x_g^{(1)}),\sum_{i=1}^K\gamma(x_{data}^{(i)},x_g^{(2)}),\cdots \right ]^T=\left [p_{g}(x_{g}^{(1)}) ,p_{g}(x_{g}^{(2)}) ,\cdots\right ]^T$ ，因此定义 $A_{(2K\times K^2)}=\begin{bmatrix} \begin{bmatrix} 1_K^T\\ 0_K^T\\ 0_K^T\\ \vdots\\ 0_K^T \end{bmatrix}_{(K\times K)} & \begin{bmatrix} 0_K^T\\ 1_K^T\\ 0_K^T\\ \vdots\\ 0_K^T \end{bmatrix}_{(K\times K)} & \begin{bmatrix} 0_K^T\\ 0_K^T\\ 1_K^T\\ \vdots\\ 0_K^T \end{bmatrix}_{(K\times K)} & \cdots& \begin{bmatrix} 0_K^T\\ 0_K^T\\ 0_K^T\\ \vdots\\ 1_K^T \end{bmatrix}_{(K\times K)}\\ & & & \\ E_K & E_K & E_K & \cdots &E_K \end{bmatrix}$ ，使得 $A\cdot \Gamma=b=\left[ p_{data}(x_{data}^{(1)}), p_{data}(x_{data}^{(2)}), \cdots,p_{data}(x_{data}^{(K)}), p_{g}(x_{g}^{(1)}),p_{g}(x_{g}^{(2)}),\cdots,p_{g}(x_{g}^{(K)})\right ]^T$ ，也就是考虑所有可能的 $\Gamma$ 时需要保证边缘概率分布等于数据分布；
  - 根据上面的定义，Wasserstein距离可以被定义为线性规划的形式： $\underset{\Gamma}{\min}\left\{ <\Gamma,D>|A\cdot\Gamma=b,\Gamma\geqslant 0 \right \}$ ，因为遍历所有可能的联合概率分布计算成本很大，因此可以使用对偶理论求解这个问题，其对偶问题为： $\underset{F}{\max} \left\{ <b,F>|A^T\cdot F\leqslant D \right\}$ ，这个问题是一个强对偶问题，因此原目标和对偶目标可以完全等价，从而将一个K^2维矩阵的求解变成一个2K维矩阵求解，大大简化了问题；
  - 因为 $<b,F>$ 是元素对应相乘，所以可以设 $F=\left[ f_{1}(x_{data}^{(1)}), f_{1}(x_{data}^{(2)}), \cdots,f_{1}(x_{data}^{(K)}), f_{2}(x_{g}^{(1)}),f_{2}(x_{g}^{(2)}),\cdots,f_{2}(x_{g}^{(K)})\right ]^T$ ；
  - K-Lipschitz限制：对于某个函数 $f(x)$ ，需要 $|f(x)-f(y)|\leqslant K\cdot |x-y|$ ，在上述问题中约束 $A^T\cdot F\leqslant D$ 等价于待求解的 $f_1(x)$ 和 $f_2(x)$ 需要满足1-Lipschitz条件，因此 $f_1(x_{data})+f_2(x_g)\leqslant |x_{data}-x_g|$ ，同时 $f_1(x)+f_2(x)\leqslant 0$ ， $f_2(x)\leqslant -f_1(x)$ ；
  - 综上，Wasserstein距离的计算等价于 $\begin{aligned} &\underset{F}{\max} \left\{ <b,F>|A^T\cdot F\leqslant D \right\}\\ =&\underset{f_1,f_2}{\max} \left\{ \sum p_{data}(x_{data})f_1(x_{data})+\sum p_g(x_g)f_2(x_g) \ |\ f_1(x)-f_2(y)\leqslant |x-y|\right\}\\ =&\underset{f_1}{\max} \left\{ \sum p_{data}(x_{data})f_1(x_{data})-\sum p_g(x_g)f_1(x_g) \ |\ f_1(x)-f_1(y)\leqslant |x-y|\right\}\\ =&\underset{f,\ \left \| f \right \|_{L\leqslant 1}}{\max} \left\{ E_{p_{data}}\left [f(x) \right ]-E_{p_z}\left [f(G(z)) \right ] \right\} \end{aligned}$ ，其中 $\left \| f \right \|_{L\leqslant 1}\Leftrightarrow f(x)-f(y)\leqslant |x-y|$ ；
  - 由此得到，判别器目标函数为 $\begin{aligned} \underset{f_w,\ \left \| f_w \right \|_{L\leqslant 1}}{\max} \left\{ E_{p_{data}}\left [f_w(x) \right ]-E_{p_z}\left [f_w(G(z)) \right ] \right\} \end{aligned}$ ，而生成器目标函数为 $\begin{aligned} \underset{G}{\min} \left\{- E_{p_z}\left [f_w(G(z)) \right ] \right\} \end{aligned}$ ；
- WGAN引入Wasserstein距离和1-Lipschitz的思想非常先进，但是最终应用到模型中其实只变更了以下四点：
  - 判别器去掉最后一层的Sigmoid，即去除其分类功能；
  - 使用新的目标函数，其中不含log函数；
  - 每次更新模型的参数时将其绝对值截断到一个预设定的固定常数，防止其无限变大；
  - 实际训练时不要使用基于动量的优化算法（包括Adam），推荐RMSProp，SGD等；
- WGAN的权值裁剪方法有固定缺陷，首先预设定的常数过大或过小都不利于模型收敛，其次这种粗暴的裁剪方法忽略了数据的高阶矩，可能会判别器关心的数据分布产生影响，因此改进版的WGAN-GP使用了正则化惩罚的思想代替原本的权值裁剪，即其目标函数为： $\begin{aligned} \underset{f_w}{\max} \left\{ E_{p_{data}}\left [f_w(x) \right ]-E_{p_z}\left [f_w(G(z)) \right ]-\lambda\cdot E_{p_x}[(\left \| \bigtriangledown _x f_w(x) \right \|_2-1)^2] \right\} \end{aligned}$

3.1.5. Loss-Sensitive GAN

Loss-Sensitive GAN（以下简称LSGAN，请区别于上面介绍的Least Squares GAN）与WGAN几乎同时提出，对传统GAN的改进也很类似，可以视为从另一个视角解读Lipschitz限制，LSGAN认为，判别器应该始终输出 $p_{data}$ 与 $p_g$ 之间的合理距离，且该距离足够大使其可以为生成器提供足够的信息来拉近 $p_{data}$ 与 $p_g$ ，因此其认为应该有一种合理的损失函数使得 $L(G(z))-L(x)\geqslant \Delta (x,G(z))$ ， $\Delta (x,G(z))$ 是输入的生成数据和原始数据的间隔，可以用 $\left \| x-G(z) \right \|^2$ 等计算；
LSGAN判别器的目标函数为 $\underset{D}{\min}\ E_{p_{data}}[L(x)]+\lambda E_{p_{data},p_z}[\ \left \{\Delta(x,G(z))+L(x)-L(G(z))\right\}_+\ ]$ ，其中 $\left \{ a \right \}_+=\max(0,a)$ ，生成器目标函数为 $\underset{G}{\min}E_{p_z}\left [L(G(z)) \right ]$ ；
$\left \{\Delta(x,G(z))+L(x)-L(G(z))\right\}_+$ 的设计使得 $L(G(z))-L(x)\geqslant \Delta (x,G(z))$ 满足时，该项为0，不参与优化，否则会将其加入目标函数使得判别器进一步拉开 $L(G(z))$ 和 $L(x)$ 的距离；
在LSGAN中，为了引入Lipschitz限制限制目标函数值域，进一步限制梯度使得模型收敛更快更稳定，在目标函数中引入了正则化惩罚 $\frac{1}{2}E_{p_{data}}\left \| \bigtriangledown L(x) \right \|^2$ ；

3.1.6. IPM（Integral Probability Metric）

类似于 f 散度，IPM同样是度量了两个分布的差异，公式为 $\underset{f\in F}{\sup}\ | E_{p_{data}}[f(x)]-E_{p_g}[f(x)] |$ ，但不同的是，IPM只度量了分布期望的差值，而 $E[x]=E[y]\neq p(x)=p(y)$ ，因此是一个伪度量，同时IPM中的 $f(x)$ 可以由神经网络拟合获得，来计算两个分布期望的最大差异；
当将 $f(x)$ 的取值空间限定在满足1-Lipschitz的函数空间时，IPM的计算就变成了WGAN的目标函数；
McGAN使用基于IPM的目标函数训练GAN，但该方法不仅考虑期望，还考虑方差，即 $\underset{f\in F}{\sup}\ | E_{p_{data}}[f(x)]-E_{p_g}[f(x)] +D_{p_{data}}[f(x)]-D_{p_g}[f(x)]|$ ；
f 散度的定义常常面临几个问题，首先是数据维度的增加带来的计算困难，同时当 $q(x)=0$ 而 $p(x)\neq0$ 时， $f(\frac{p(x)}{q(x)})\rightarrow \infty$ ，另外，无论如何定义 f 散度，GAN在很多时候学习到的并不是准确的散度值，而是一个变分下界，这也会带来度量不准确的问题，基于IPM的GAN基本解决了上述问题，且收敛情况几乎不受数据维度和样本选择的影响；

3.1.7. BEGAN

重构损失函数经常出现在GAN中，例如EBGAN，而BEGAN也是将重构思想应用于判别器的例子，其判别器本身就是一个自编码器，尽可能使输入和输出一致使其得到重构，因此目标函数为： $\underset{D}{\min}\left \{E_{p_{data}}[\|x-D(x)\|]-E_{p_z}[\| G(z)-D(G(z)) \|]\right\}$ ，生成器目标函数则为 $\underset{G}{\min}E_{p_z}[\| G(z)-D(G(z)) \|]$ ；
BEGAN同时还借鉴了控制论的思想，改进判别器的损失函数为： $\underset{D}{\min}\left \{E_{p_{data}}[\|x-D(x)\|]-k_t\cdot E_{p_z}[\| G(z)-D(G(z)) \|]\right\}$ ，其中 $k_{t+1}=k_t+\lambda_k(\alpha E[D(x)]-E[D(G(z))])$ ， $\alpha$ 是松弛因子，和 $\lambda_k$ 都是预设定的超参数，使得平衡因子 $k_t$ 也得到训练，这样构建出的目标函数类似于控制系统的负反馈，使得收敛过程更加稳定；

3.2. 训练技巧

3.2.1. GAN训练的三个问题

梯度消失：在之前有讨论过很多梯度消失的现象，以及从目标函数角度的改进方法，这里再从更一般的角度介绍梯度消失：
- 当数据维度较高时，原始数据很容易成为高维数据的低维流形（简单举个例子，比如二维空间内一个圆心固定的圆上若干点组成数据集，在已知圆心和半径的情况下，只需要角度一个参数就可以确定这个点，也就是二维空间的一维流形），而生成数据当抽样的 $z$ 维度低于 $G(z)$ 时，也容易成为高维空间的低维流行（同样的例子， $z$ 是角度而 $G(z)$ 是圆上的二维数据）；
- 高维空间的低维流形极大可能不存在不可忽略的相交（比如说三维空间内的xoy平面和yoz平面相较于y轴，但是相较于两个平面，这条轴所占空间极小，是可忽略的），而当此时，很容易训练一个完美判别器可以将原始数据和生成数据完全分开，此时经典的GAN模型基于分类模型和JS散度的判别器将失效，因为其不能从完全分开的两个分布中计算距离，所以返回给生成器的梯度为0；
训练不稳定：
- 在GAN类隐式生成模型中，无法探究 $p_g$ 的相关信息，只能用神经网络表达 $p_g$ ，但这个表达过程是在参数空间而非函数空间中进行，因此其无法满足收敛性所需的凸性等性质；
- 生成器和判别器的对抗交替学习要达到收敛，必须要求生成器和判别器拥有足够的容量，特别是判别器容量不足时会导致对抗的均衡点并不存在；
- 在GAN迭代训练的每一步中，理论上要固定生成器，将判别器训练到最优，再交替训练生成器，但实际问题中要将判别器训练到最优需要很大成本，因此常常固定一个训练次数k，每步迭代训练k次判别器和一次生成器，判别器无法保证训练到了最优，这就会带来一个问题，交替迭代的训练到底是在解决 $\underset{G}{\min}\underset{D}{\max}V(G,D)$ 还是 $\underset{D}{\max}\underset{G}{\min}V(G,D)$ ，这两者是完全不同的，甚至有时会向着相反的方向训练，无法达到纳什均衡点（指博弈过程中二者都难以利用对方进化自身的平衡点）；
模式崩溃：简单来说就是我们想要GAN生成丰富多彩的图片，但最终模型收敛以后只会输出少有的几种类型，例如我们输入了苹果、香蕉、橙子等多种图片，而模型学习到了只生成橙子的图片依然可以使判别器和生成器各自收敛，但生成效果并不是我们理想的；

3.2.2. 退火噪声

该方法用于解决梯度消失问题，且简单而有效，就是在高维空间采样0均值的高斯噪声，与对应两个分布叠加，这样在基本不影响两个分布的情况下将其弥散到整个空间，从而创造不可忽视的交叉；
此时可以放心在每次迭代时把判别器训练到最优，此时的最优判别器不可能是完美判别器；
同时采用退火思想，在训练时逐步减小噪声的方差，也就是逐渐减小弥散范围，直到两个分布完全重叠时，噪声方差减到0；
噪声方差的选择可能会影响训练表现，若方差较大，则与正常不添加噪声的模型一样，若噪声较小，则可能会咱均衡点附近旋转而无法收敛到均衡点，因此对调参要求较高；

3.2.3. 谱正则化

特征值和奇异值分解：从特征值角度来看， $Ax=y$ 可以认为是一次线性变换，而对于一般的方阵 $A$ ，如果是非奇异的（可逆的，大多数情况），有n个特征向量组成满秩的n维空间，则对任意 $x$ 可以将 $Ax=y$ 视为 $x$ 被投影到各个特征向量 $x=\sum\mu_i \xi _i$ ，再在各个特征向量方向进行对应特征值的拉伸，即 $Ax=\sum\lambda_i\mu_i \xi _i$ ，再合成新的向量 $y$ ，如果 $A$ 不是方阵则可以分解奇异值；
谱范数和1-Lipschitz限制：
- 从特征值和奇异值分解的角度，对任意单位向量 $x$ ， $\left \| Ax \right \|_2\leqslant \sigma (A)$ ，其中 $\sigma (A)$ 是 $A$ 的最大奇异值，被称为 $A$ 的谱范数；
- 对于任意 $A$ ，定义 $\hat{A}=\frac{A}{\sigma(A)}$ ，其必定满足1-Lipschitz限制，因为 $\frac{\|\hat{A}(x+\Delta x)-\hat{A}(x)\|}{\|\Delta x\|}\leqslant \sigma(\hat{A})=\frac{1}{\sigma(A)}\cdot \sigma(A)=1$ ，这个过程被称为谱正则化；
SNGAN正是以此为基础，从理论角度，以一种“硬手段”保证1-Lipschitz限制成立，即对每一层网络权重都进行谱正则化，相比与WGAN和WGAN-GP中利用某些“软手段”引入1-Lipschitz限制更加稳定，提高了模型训练效果；
但在实际计算中，对模型参数计算奇异值是成本极大的，因此采用一种幂方法近似计算：
- 初始化任意m维向量 $u_0$ 和n维向量 $v_0$ ，多次迭代计算 $v_{t+1}=A^Tu_t/\|A^Tu_t\|\\u_{t+1}=Av_t/\|Av_t\|$ ，谱范数可以计算由： $\sigma(A)\approx u_n^TAv_n$ ，直至收敛；
- 实际过程中通常只需要很少的迭代次数（一次就差不多）就可以得到有效计算结果；
谱正则化已经应用于很多GAN模型中，尤其是图像生成任务，且在判别器和生成器都可以使用，但不足之处在于，可能会限制参数空间的搜索范围；

3.2.4. 一致优化

欧拉法：对于某个有初始值的常微分方程 $\frac{\mathrm{d} \theta}{\mathrm{d} t}=f(\theta,t)$ ，很多时候很难求解方程的形式，则需要逐渐求数值解，此时可以使用欧拉法，根据初始值 $(\theta_0,t_0)$ 和预设定的固定时间间隔 $h$ ，0 $\theta_1=\theta_0+h\cdot f(\theta_0,t_0),\theta_2=\theta_1+h\cdot f(\theta_1,t_1),\cdots$ ，这个过程非常类似神经网络中的梯度下降法，时间间隔 $h$ 类似于学习率；

4. 扩散模型（Diffusion Model）

4.1. DDPM（Denoising Diffusion Probabilistic Model）

4.1.1. DDPM的原理概述

通过训练一个去噪网络，将一个采样到的随机噪声进行逐步去噪，最终还原为一个清晰的图片（类似于大理石雕塑，核心是精准找到多余的部分给它去掉）；
每一步的去噪即为训练一个噪声模拟器，通过输入一个带有噪声的图片，以及当前步数，输出噪声预测值，并将带躁图片减去该噪声；
相比于GAN等一步到位的模型，Diffusion两大核心改进是逐步自回归和噪声预测，前者在后文中介绍，后者则是认为从噪声中预测一张图和从噪声中预测多余的噪声难度是大不相同的，只预测噪声更加简单和可行，只要再从输入中减去预测的噪声即可；
DDPM的前向过程是对清晰的图片进行逐步加噪的过程，每一步会得到一个该步的噪声和加噪后的图片，因此产生了去噪网络的训练数据；
DDPM先加噪再去噪的结构有点像自回归模型，不同的是自回归模型的编码和解码都是单步，且中间变量是隐特征，DDPM采用多步编码和解码，中间变量是噪声，无独有偶，VAE中间产物也是噪声，因此DDPM一定程度上继承了VAE的优秀思想，在后文的数学推导中也会将DDPM和VAE进行比较；
为什么DDPM多步生成效果会比VAE的单步生成更好呢？从NLP的文本生成任务中或许可以找到灵感，传统文本生成中如果自回归模型一次到位生成下半句，可能生成的结果会不合逻辑，例如下图可能会根据概率输出“老员”的结果，但如果分两步生成，先确定一个字，例如确定概率更大的“员”，再结合前后文输出前面的字，就会得到“演员”的答案，更加符合上下文逻辑，这个方法叫“Mask-Predict”被广为应用，同样的问题和思想也在图像和语音中有所体现，使用分步式生成结构，每一步都是上一步的精细化和微调，使得上下文更加通顺和合理；

4.1.2. DDPM数学原理

模型原理：
- 事先设定加噪和去噪的步数 $T$ ，以及一组超参数 $\{ \bar{\alpha}_1, \bar{\alpha}_2,\cdots, \bar{\alpha}_T \}$ （步数越大的参数越小）；
- 训练：
  - 对每一步，从标准正态分布中抽样一个随机噪声：
    - 加噪： $x_t=\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon$ （并不需要从 $x_{t-1}$ 计算得到，这与想象中不同，但由于标准正态分布独立可加性， $x\left (\sim N(\mu_1,\Sigma_1) \right )+y\left (\sim N(\mu_2,\Sigma_2) \right )=z\left (\sim N(\mu_1+\mu_2,\Sigma_1+\Sigma_2) \right )$ ，计算效果是一样的）；
    - 去噪：训练噪声预测器 $\epsilon _{\theta}$ ，输入 $x_t$ 和步数 $t$ ，来预测抽样的噪声 $\epsilon$ ，因此梯度为 $\bigtriangledown _{\theta} \| \epsilon-\epsilon_{\theta}\left (\sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\epsilon,t \right ) \|^2$ ；
- 推断（生成）：
  - 从标准高斯分布中抽样出生成所需的噪声 $x_T$ ；
  - 反向去噪，对每一步 $t \ \text{from}\ T \ \text{to} \ 1$ ，计算 $x_{t-1}=\frac{1}{\sqrt{\alpha_t}}\left ( x_t-\frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_{\theta}(x_t,t) \right )+\sigma_tz$ ，其中 $\{ \alpha_1, \alpha_2,\cdots, \alpha_T \}$ 可以由 $\{ \bar{\alpha}_1, \bar{\alpha}_2,\cdots, \bar{\alpha}_T \}$ 算得（计算方法后面推导中介绍）， $\{ \sigma_1, \sigma_2,\cdots, \sigma_T \}$ 是另一组预设定的参数（值远小于1）， $z$ 则是从标准正态分布中抽样的新噪声；
为什么DDPM在实际运作时加噪是从原始图像一步到位呢？
- 首先回忆VAE的推导，生成模型的本质是使得生成模型的 $p_{\theta}(G(z))$ 尽可能接近原始数据 $p_{data}(x)$ ，而这个目标可以通过最大似然来实现，通过证明可知最大似然等价于最小化两个分布的KL散度（GAN是最小化JS散度，本质不变）；
- 在VAE中，因为一个样本 $x^{(i)}$ 对应一个隐变量 $z^{(i)}$ ，因此 $z^{(i)}|x^{(i)}\sim N(\mu_{\theta}(x^{(i)}), \Sigma_{\theta}(x^{(i)}))$ 应当是一个尖锐的单峰分布，所以 $E_{q_{\phi}(Z|X)}\left[ \log P_{\theta}(X|Z) \right ]\approx \log P_{\theta}(X|Z)$ ，这是ELBO的第一项，可以简化高维 $z$ 无法求积分来计算期望的问题，其中 $q_{\phi}(Z|X)$ 是VAE的编码器，因此无需从复杂的 $z$ 空间计算积分后，最大化变分下界可以直接等价于最大化 $\left \| G(z)-x \right \|_2$ ；
- 在DDPM中也有和VAE相同的思想，不过解码器是一个分步去噪的过程，其中 $q(x_1:x_T|x_0)$ 是加噪网络分布， $P(x_0:x_T)$ 是去噪网络逐步生成的 $\{ x_0, x_1,\cdots,x_T \}$ 的分布；
- 因此通过一系列推导，最终可以将DDPM的ELBO化简为下面的式子，第一行的两项与去噪部分无关，因此只需要最小化第二行的部分即可（红色框）；
- 在加噪网络中已知 $q(x_t|x_0), q(x_{t-1}|x_0), q(x_t|x_{t-1})$ ，因此可以利用贝叶斯公式得：
- 因为上面的三个概率分布都是高斯分布，因此经过概率密度函数的一番推导，最终得到 $q(x_{t-1}|x_t)$ 也是一个高斯分布，其均值和方差分别为：
- 接下来最小化ELBO中的KL散度，因为 $q(x_{t-1}|x_t)$ 和 $P(x_{t-1}|x_t)$ 都是正态分布且方差都是固定的（也有论文讨论 $P(x_{t-1}|x_t)$ 方差并不严格固定的问题，但是实际工作验证了可以将其视作固定，不会有大的影响），因此最小化KL散度实际上就是最小化均值之差，而 $q(x_{t-1}|x_t)$ 已知时上面这张图的左侧部分，可以进一步化简由得最终均值为，这就是去噪网络每一步想要的图像均值，而去噪网络中的噪声预测器则需要预测均值中的噪声部分，因此有了生成算法中下面红框的式子；
- 回过头来看，为什么加噪过程要一步到位呢，一方面是为了加快运算速度，一方面是为了使 $q(x_t|x_0), q(x_{t-1}|x_0), q(x_t|x_{t-1})$ 都已知，增加模型可解释性；
为什么要在后面再加一个 $\sigma_tz$ 呢？这个并没有出现非常好的解释，根据台大李宏毅老师的理解，生成模型需要有一定的随机性，例如GPT作为一种自回归生成模型，每次生成文本时会根据前文计算下一个token的概率，并从概率分布中选取下一个token，这个过程中并不会选择概率最大的词汇，因为相关研究发现，用人类的自然语言作为数据来计算每个词根据前文计算出的概率，发现语言本来就不是最大概率的token组合，如果限定了每次都选择概率最大的token，会使得生成结果非常无聊且可能会有重复现象，而且即便没有这两种结果，生成的语音也并不像人类会说出的语言，在语音和图像中也会有类似的情况，生成模型必须有足够的随机性使其更加接近真实世界的数据，而DDPM多步的去噪过程很可能使一开始噪声 $x_T$ 中的随机性逐渐失效，因此在每一步加入一些新抽取的随机噪声，当然限定 $\sigma_t$ 为一个较小的值；

4.1.3. DDPM改进

文生图：将文本提示词一起输入去噪网络训练；
现有生成模型（SD、DALLE）通用框架：
- 由文本编码器、生成模型和解码器组成；
- 将文本通过文本编码器，与对应的图片输入生成模型，得到一个中间产物，再将中间产物通过解码器得到清晰的图像结果，有时还可以加入一个图像编码器，将图像编码成小图或是紧凑表征输入生成模型；
- 中间产物有时是肉眼可见的小图，此时解码器的任务类似于小图生大图，有时是肉眼看不懂的隐特征表征图，此时解码器任务类似于逆特征提取；
经过实验（Google）证明，文生图模型性能与其中的扩散模型规模关系不大，而是文本编码器的规模会在很大程度影响生成效果；
DDPM也可以用在语音（WaveGrad）中，几乎不需要在思路上做出改变，只要把噪声改为语音的噪声即可；
文本生成中DDPM的应用遇到了阻碍，因为文字常常使用独热编码表示，无法进行加噪使其符合高斯等简单的噪声分布，也无法通过去噪得到生成结果，但也有一些工作探索了词的表征向量的加噪去噪过程（Diffusion-LM、DiffuSeq等），或者其他类型的噪声（使用Mask等）；

神齐的小马

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
生成式AI

为了增强图片生成效果，采用一种加噪（前向过程）+降噪（反向过程）的方法，对样本图片进行加噪处理，并使其噪声逐渐满足高斯分布，再学习降噪方法，将样本图片还原，这样让模型掌握利用一定的随机噪音来完成高质量图片生成能力；模型需要学习到的实际上是能力；此处的应当是一个分布而不是一个具体的样本，由推得的一系列分布，可以使模型的生成效果更加多元化。
复制链接

扫一扫