变分推断笔记

最新推荐文章于 2024-09-17 02:13:06 发布

碧落回雪

最新推荐文章于 2024-09-17 02:13:06 发布

阅读量136

点赞数

分类专栏：变分推断贝叶斯模式识别文章标签：概率论机器学习

本文链接：https://blog.csdn.net/zjy_snow/article/details/120309883

版权

模式识别同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

贝叶斯

2 篇文章 0 订阅

订阅专栏

变分推断

1 篇文章 0 订阅

订阅专栏

更多的内容请参考苏剑林老师的科学空间

变分推断笔记

变分推断
其他
参考文献

变分推断

令 $x$ 为显变量， $z$ 为隐变量， $\tilde{p}(x)$ 为 $x$ 的证据分布，有
$q(x)=q_{\theta}(x)=\int{q_{\theta}(x,z)\rm{d}z}$
通常，我们希望用 $q_{\theta}(x)$ 近似 $\tilde{p}(x)$ ，即最小化KL散度（等同于最大化似然函数，最小化交叉熵）
$KL(\tilde{p}(x)||q(x))=\int{\tilde{p}(x)\log{\frac{\tilde{p}(x)}{q(x)}}\rm{d}x}$
此时引入联合分布 $p (x, z)$ ，由联合分布和边缘分布的关系可知， $\tilde{p}(x)=\int{p(x,z)\rm{d}z}$ ，变分推断的本质就是将边缘分布的KL散度 $KL(\tilde{p}(x)||q(x))$ 改为边缘分布 $K L (p (x, z) ∣ ∣ q (x, z))$ ，从而有
$\iint{p(x,z)\log{\frac{p(x,z)}{q(x,z)}}\mathrm{d}x\mathrm{d}z}$
由贝叶斯公式可以知道， $p(x,z)=p(z|x)\tilde{p}(x)$ 和 $q (x, z) = q (z ∣ x) q (x)$ ，则
$=\iint{p(z|x)\tilde{p}(x) \log{\frac{p(z|x)\tilde{p}(x)}{q(z|x)q(x)}} \mathrm{d}x\mathrm{d}z}$
将 $\log$ 拆分可以得到
$\iint{p(z|x)\tilde{p}(x) \log{\frac{\tilde{p}(x)}{q(x)}} \mathrm{d}x\mathrm{d}z} + \iint{ p(z|x)\tilde{p}(x) \log{\frac{p(z|x)}{q(z|x)}} \mathrm{d}x\mathrm{d}z}$
其中，
$\iint{p(z|x)\tilde{p}(x) \log{\frac{\tilde{p}(x)}{q(x)}} \mathrm{d}x\mathrm{d}z} = \int{\tilde{p}(x) \log{\frac{\tilde{p}(x)}{q(x)}} \mathrm{d}x} \int{ p(z|x)\mathrm{dz}}=KL(\tilde{p}(x)||q(x))$
$\iint{ p(z|x)\tilde{p}(x) \log{\frac{p(z|x)}{q(z|x)}} \mathrm{d}x\mathrm{d}z}=\int{\tilde{p}(x) \int{ p(z|x)\log{\frac{p(z|x)}{q(z|x)}} \mathrm{d}z} \mathrm{d}x}=\int{\tilde{p}(x)KL(p(z|x)||q(z|x)) \mathrm{d}x}$
因此
$KL(p(x,z)||q(x,z))=KL(\tilde{p}(x)||q(x))+\int{\tilde{p}(x)KL(p(z|x)||q(z|x)) \mathrm{d}x} \ge KL(\tilde{p}(x)||q(x))$
意味着联合分布的KL是一个更强的上界。通常情况下， $K L (p (x, z) ∣ ∣ q (x, z))$ 要比 $KL(\tilde{p}(x)||q(x))$ 容易计算，所以变分推断提供了一个可计算的方案。

VAE

令 $q (x, z) = q (x ∣ z) q (z)$ ， $p(x,z)=\tilde{p}(x)p(z|x)$ ，带入联合分布KL散度，
$KL(p(x,z)||q(x,z))=\iint{\tilde{p}(x)p(z|x) \log{\frac{\tilde{p}(x)p(z|x)}{q(x|z)q(z)}} \mathrm{d}x \mathrm{d}z}$
将 $\log$ 拆开可以得到
$\iint{\tilde{p}(x)p(z|x)\log{\tilde{p}(x)} \mathrm{d}x \mathrm{d}z}-\iint{\tilde{p}(x)p(z|x)\log{q(x|z)} \mathrm{d}x \mathrm{d}z} + \int{\tilde{p}(x) KL(p(z|x)||q(z)) \mathrm{d}x}$
由数字计算vs采样计算可以知道
$\mathbb{E}_{x \sim p(x)}[f(x)]=\int{f(x)p(x)\rm{d}x} \approx \frac{1}{n}\sum_{i=1}^n{f(x_i)}$
且 $\log{\tilde{p}(x)}$ 不包含优化目标，可以视为常数，可以得到
$\mathbb{E}_{x \sim \tilde{p}(x)}[-\int{p(z|x)\log{q(x|z)} \mathrm{d}z} + KL(p(z|x)||q(z))]=\mathbb{E}_{x \sim \tilde{p}(x)}[\mathbb{E}_{z \sim p(z|x)}[-\log{q(x|z)}]+KL(p(z|x)||q(z))]$

编码器

论文[1]中提到了The evidence lower bound，即VAE的优化目标。对于隐变量 $z$ ，用 $q (z ∣ x)$ 近似 $p (z)$ ，则有
$KL(p(z)||q(z|x))=\int{p(z) \log{\frac{p(z)}{q(z|x)}} \mathrm{d}z}=\mathbb{E}_{z\sim p(z)}[\log{p(z)}] - \mathbb{E}_{z \sim p(z)}[\log{q(z|x)}]$
利用贝叶斯公式，可以得到
$\mathbb{E}[\log{p(z)}]-\mathbb{E}[\log{q(z,x)}]+\log{q(x)}$
令
$\mathrm{ELBO}(p)=\mathbb{E}[\log{q(z,x)}]-\mathbb{E}[\log{p(z)}]=\mathbb{E}[\log{q(x|z)}]-KL(p(z)||q(z))$
和前面得到的优化目标是一致的， $K L (p (z) ∣ ∣ q (z ∣ x))$ 和 $K L (p (z) ∣ ∣ q (z))$ 目的是一致的！

重参数化

上式中 $\mathbb{E}_{z \sim p(z|x)}$ 需要对隐变量 $z$ 进行采样，但是“采样”不可导，因此，在 $\mathcal{N}(0,1)$ 中采样得到 $\xi$ ，令 $z=\mu+\sigma \times \xi$ ，当每次只采样1个时，VAE的优化目标就变成了
$\mathbb{E}_{x \sim \tilde{p}(x)}[-\log{q(x|\mu,\sigma)}+KL(p(\mu,\sigma|x)||q(\mu,\sigma))]$

GAN

GAN约定 $\sim N(z;0,I)$ ，令 $q(x|z)=\delta(x-G(z))$ ， $\delta(x)$ 是狄拉克 $\delta$ 函数， $G (z)$ 为生成器。GAN中引入了一个二元变量 $y$ 来构成联合分布

$\begin{cases} \tilde{p}(x)p_1, & y=1 \\ q(x)p_0, & y = 0 \end{cases}$
设 $p(x,y)=p(y|x)\tilde{p}(x)$ ，则
$KL(q(x,y)||p(x,y))=\int{\tilde{p}(x)p_1\log{\frac{\tilde{p}(x)p_1}{p(1|x)\tilde{p}(x)}} \mathrm{d}x} + \int{q(x)p_0 \log{\frac{q(x)p_0}{p(0|x)\tilde{p}(x)}} \mathrm{d}x}$
令 $D (x) = p (1 ∣ x)$ 为判别器，采用交替优化，先固定 $G (z)$ ，即 $q (x)$ 为常量，此时（我把负号去了）
$D=\argmax_D{\int{\tilde{p}(x) \log{D(x)} \mathrm{d}x}+\int{q(x) \log{(1-D(x))} \mathrm{d}x}}=\argmax_D{\mathbb{E}_{x \sim \tilde{p}(x)}[\log{D(x)}] + \mathbb{E}_{x \sim q(x)}[\log{(1-D(x))}]}$
此时固定 $D (x)$ ，则
$G=\argmin_G{\int{q(x)\log{\frac{q(x)}{(1-D(x))\tilde{p}(x)}} \mathrm{d}x}}$
由 $D (x)$ 最优解
$D(x)=\frac{\tilde{p}(x)}{\tilde{p}(x)+q^o(x)}$
可以得到
$\tilde{p}(x) = \frac{D(x)q^o(x)}{(1-D(x))}$
此时
$\int{q(x) \log{\frac{q(x)}{D(x)q^o(x)}} \mathrm{d}x}=-\mathbb{E}_{z \sim q(z)}[\log{D(G(z))}]+KL(q(x)||q^o(x))$

其他

内容主要来自苏剑林老师的文章，其中主要是在学习的过程中将更加详细的过程记录了一下（其实参考苏老师的其他文章是可以找到更加详细的过程的）。了解变分推断的理论之后，能够进一步了解VAE的理论推导过程，因此才能够考虑将其应用在其他具体的领域和问题上，进行改进和优化

暂时没有梳理出论文[1]中Bayesian mixture of Gaussians的相关内容。

参考文献

[1] Blei, David M., Alp Kucukelbir, and Jon D. McAuliffe. “Variational inference: A review for statisticians.” Journal of the American statistical Association 112.518 (2017): 859-877.
[2] Su, Jianlin. “Variational inference: A unified framework of generative models and some revelations.” arXiv preprint arXiv:1807.05936 (2018).