变分推断学习

最新推荐文章于 2024-08-02 23:30:27 发布

回想sy

最新推荐文章于 2024-08-02 23:30:27 发布

阅读量350

点赞数 4

分类专栏：机器学习文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/weixin_49708196/article/details/119803312

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

#! https://zhuanlan.zhihu.com/p/401456634

变分推断

1.变分推断的背景

在机器学习中，有很多求后验概率的问题，求后验概率的过程被称为推断（Inference），推断分为精确推断和近似推断。精确推断一般主要是根据贝叶斯等概率公式推导出后验概率，但在一些生成模型中，如RBM, DBN, DBM很难应用精确推断，于是乎我们就有了近似推断，近似推断又分为确定性近似和随机性近似,确定性近似方法就是变分推断（Variance Inference， VI），随机性近似的方法有马尔可夫蒙特卡洛采样（Markov Chain Monte Carlo， MCMC）、Metropolis-Hastings采样（MH）、吉布斯采样（Gibbs）。具体关系如下图：

2.变分推断介绍

2.1.问题的提出

假设 $X$ 是观测数据， $Z$ 是隐变量+参数， $(X, Z)$ 是完全数据。
在最大似然估计里面有这么个事实：
$\begin{aligned} \log p(x) &=\log p(x, z)-\log p(z \mid x) \\ &=\log \frac{p(x, z)}{q(z)}-\log \frac{p(z \mid x)}{q(z)} \end{aligned}$
两边都关于 $z$ 积分有，左边= $\int_{z} \log p(x) q(z) d z=\log p(x)$ ，而右边，
$\begin{aligned} & \int_{z} q(z) \log \frac{p(x, z)}{\left.q{(z}\right)} d z+\left(-\int_{z} q(z) \log \frac{p(z \mid x)}{\left.q(z\right)} d z\right) \\ =& \mathcal{L}(q)+KL(q \| p) \end{aligned}\tag{1}$
其中 $\mathcal{L}(q)$ 就是我们说的变分，也即ELBO,这样就把对数似然转化为了变分和 $K L$ 散度的和。

因为后验函数 $p (z ∣ x)$ 求不出，所以我们的任务就是要找到一个分布 $q (z)$ 来近似这个后验，也就是使 $\| p)$ 最小，此时要求变分 $\mathcal{L}(q)$ 达到最大值，也即把问题转化为了求 $\underset{q}{argmax}\mathcal{L}(q)$

2.2.问题的转化

在介绍变分问题前，我们还需要了解到一个概念，平均场假设，这个假设来源于统计物理中的mean field theory思想，将 $q (z)$ 划分为M个独立的分布，即 $q(z)=\prod_{i=1}^{M}q_{i}(z_{i})$
代入 $\mathcal{L}(q)$ 中有：
$\mathcal{L}(q)=\int_{z} q(z) \log p(x, z) d z-\int_{z} q(z) \log q(z) d z$ ，其中第一部分：
$\begin{aligned} \int_{z} q(z) \log p(x, z) d z &=\int_{z} \prod_{i=1}^{m} q_{i}\left(z_{i}\right) \log p\left(x, z\right) d z \\ &=\int_{z j} q_{j}\left(z_{j}\right)\left[\int \prod_{i \neq j}^{M} q_{i}\left(z_{i}\right) \log p(x, z)dz_1dz_2\cdots dz_M \right]dz_j\\ &=\int_{z_{j}} q_{j}\left(z_{j}\right) \cdot E_{\prod_{i \neq j}^{M} q_{i}\left(z_{i}\right)}[\log p(x, z)] d z_{j}\\ &=\int_{z_{j}} q_{j}\left(z_{j}\right) \cdot log \hat{p}(x, z)] d z_{j}\end{aligned}$
$\begin{aligned} \int_{z} q(z) \log q(z) d z &=\int_{z} \prod_{i=1}^{M} q_{i} \left(z_{i}\right) \log \prod_{i=1}^{M} q_{i}\left(z_i\right) d z \\ &=\int_{z} \prod_{i=1}^{m} q_{i}\left(z_{i}\right) \sum_{i=1}^{m} \log q_{i}\left(z_{i}\right) d z \end{aligned}$
因为
$\begin{aligned} \int_{z} \prod_{i=1}^{M}q_{i}\left(z_{i}\right) \log q_{1} d z &=\int_{z_{1}}q_{1}\left(z_{1}\right) \log q_{1} d z_{1} \int_{z_{2}} q_{2}\left(z_{2}\right) d z_{2} \cdots \int_{z_{m}} q_{m}\left(z_{m}\right) d z_{m} \\ &=\int_{z_{1}}q_{1}\left(z_{1}\right) \log q_{1} d z_{1} \end{aligned}$
所以继续化简有：
$\begin{aligned} \int_{z} q(z) \log q(z) d z &=\sum_{i=1}^{m} \int_{z_{i}} q_{i}\left(z_{i}\right) \log q_{i}\left(z_{i}\right) d z_{i} \\ &=\int_{z_{j}} q_{j}\left(z_{j}\right) \log q_{j}\left(z_{j}\right) d z_{j}+C \end{aligned}$

此时只把 $q_j(z_j)$ 看作变量，其余看作常量。所以
$\mathcal{L}(q)=\int_{z_{j}} q_{j}\left(z_{j}\right) \log \frac{\hat{p}(x, z)}{q_{j}(z_{j})} d z_{j}-C$ 因为 $C$ 是常量,z在求极大的时候可以省略。故我们得到了：
$\begin{aligned}\mathcal{L}(q)&=\int_{z_{j}} q_{j}\left(z_{j}\right) \log \frac{\hat{p}(x, z_j)}{q_{j}(z_{j})} d z_{j}\\ &=-KL(q_j\|\hat{p}(x, z_j)) \le 0\end{aligned}$

注意，以上推导都是建立在平均场假设上。
关于推导过程中的 $K L$ 散度有一些细节问题，要知道 $K L$ 散度是不对称的， $KL(q\|p)和KL(p\|q)$ 有着不同的性质， $KL(q\|p)$ 鼓励分布 $q$ 在真实分布 $p$ 达到高概率达到高概率， $KL(p\|q)$ 则鼓励分布 $q$ 在真实分布 $p$ 概率较低的地方概率较小，他们各自有其优缺点，应用则取决于两者哪种效果更好。出于计算的角度，我们选择用 $KL(q\|p)$ ，因为其涉及求在分布 $q$ 下的数学期望，比起求在真实分布 $p$ 下的数学期望较为简单。
实际上，VI和EM的方法有些类似，关于EM算法，下次再写。

2.3.问题的解决

至此,我们推导出了变分的形式，变分学习的核心思想就是在一个关于 $q$ 的有约束的分布族上最大化 $\mathcal{L}$ 。要使 $q = p$ ,则有 $\mathcal{L}=0$ ，根据上面的推导过程，此时有公式
$\log q_j(z_j)=E_{\prod_{i\ne j}}[\log p(x, z)]+C$
展开就有
$\log q_j(z_j)=\int_{z_1}\int_{z_2}\cdots \int_{z_{j-1}}\int_{z_{j+1}}\cdots\int_{z_{M}}q_1q_2\cdots q_{j-1}q_{j+1}\cdots q_{M}\log p(x, z)dz_1dz_2\cdots d_{z_j-1}d_{z_j+1}\cdots d_{M}$
然后我们用常规的迭代算法求解上式，比如坐标上升发就可以得到 $log q_j(z_j)$ ,然后求出所有的 $q_j$ 就可以得到后验概率了，目的达到！

2.4.变分的缺点

通过上面的推导我们可以发现所有推导都是建立在平均场假设上的，而平均场假设本身就较难满足，所以变分的一个主要缺点就是假设很难满足，不实用。

2.5.变分的变种

我们上面说可以用坐标上升法来计算，那我们很自然的就可以想到可不可以用梯度上升法（SGA），答案是可以的。
我们要求解的问题是
$\underset{q}{argmax}\mathcal{L}(q)$
把 $q (z)$ 写成 $q_{\Phi}(z)$ ,这里应用了以下重参数化的技巧，因为对概率密度函数求梯度是不容易的，所以我们抽象出了一个连续变量 $\Phi$ ，从而可以对其求导，这里的 $\Phi$ 仍然有
$\Phi=\underset{\Phi}{argmax}\mathcal{L}(\Phi)$
因为
$\mathcal{L}(q)=\int_{z}q_{\Phi}(z)\log \frac{p(x, z)}{q_{\Phi}(z)}dz=E_{q_{\Phi}}[\log p_{\theta}(x, z)-\log q_{\Phi}]$
所以
$\begin{aligned} \bigtriangledown_{\Phi}\mathcal{L}(\Phi) &=\bigtriangledown_{\Phi}E_{q_{\Phi}}[\log p_{\theta}(x, z)-\log q_{\Phi}] \\ &=\bigtriangledown_{\Phi}\int_zq_{\Phi}(z)[\log p_{\theta}(x, z) - \log q_{\Phi}]dz \\ &=\int_z\bigtriangledown_{\Phi}q_{\Phi}(z)[\log p_{\theta}(x, z) - \log q_{\Phi}]dz + \int_zq_{\Phi}\bigtriangledown_{\Phi}[\log p_{\theta}(x, z) - \log q_{\Phi}]dz \\ &=①+②\end{aligned}$
分析②
$\int_zq_{\Phi}\bigtriangledown_{\Phi}[\log p_{\theta}(x, z) - \log q_{\Phi}]dz=-\int_zq_{\Phi}*\frac{1}{q_{\Phi}}*\bigtriangledown_{\Phi}q_{\Phi}dz=-\int_z\bigtriangledown_{\Phi}q_{\Phi}dz=-\bigtriangledown_{\Phi}\int_zq_{\Phi}dz=0$
所以
$\bigtriangledown_{\Phi}\mathcal{L}(q)=\int_z\bigtriangledown_{\Phi}q_{\Phi}(z)[\log p_{\theta}(x, z) - \log q_{\Phi}]dz$
用一个小技巧， $\bigtriangledown_{\Phi}q_{\Phi}(z)=q_{\Phi}\bigtriangledown_{\Phi}\log q_{\Phi}$ ，有
$\begin{aligned} &=\int_zq_{\Phi}\bigtriangledown_{\Phi}\log q_{\Phi}[\log p_{\theta}(x, z) - \log q_{\Phi}]dz\\ &=E_{q_{\Phi}}[\bigtriangledown_{\Phi}\log q_{\Phi}[\log p_{\theta}(x, z) - \log q_{\Phi}] \end{aligned}$
此时就可以应用我们熟悉的采样方法来求解这个期望了，然后再进行梯度上升即可。
这里会有一个问题,就是期望中 $\bigtriangledown_{\Phi}\log q_{\Phi}$ 对样本点比较敏感，当 $q_{\Phi}$ 较小时，其梯度会趋于无穷，这就造成了采样结果方差较高，这就意味着我们需要大量的样本去拟合这个期望，可以认为不太现实，所以我们继续介绍求解这个梯度的另外一个方法。
重参数化技巧:
令 $z\sim g_{\Phi}(\epsilon, x), \epsilon \sim P(\epsilon)$ ，在题解情况下有 $z\sim q(z|x) \Rightarrow \epsilon \sim P(\epsilon)$ ，并且 $q(z|x)dz=P(\epsilon)d\epsilon$ ，这里是因为 $\int_zq(z|x)dz=1，\int_{\epsilon}P(\epsilon)d\epsilon=1$ 并且 $\epsilon$ 和 $z$ 又有着对应关系，所以上述等式成立。
$\begin{aligned} \bigtriangledown_{\Phi}\mathcal{L(\Phi)}&=\bigtriangledown_{\Phi}E_{q_{\Phi}}[\log p_{\theta}(x, z)-\log q_{\Phi}] \\ &=\bigtriangledown_{\Phi}\int(\log p_{\theta}(x, z)-\log q_{\Phi})q_{\Phi}dz \\ &=\bigtriangledown_{\Phi}\int_{\epsilon}(\log p_{\theta}(x, z)-\log q_{\Phi})P(\epsilon)d\epsilon \\ &=\bigtriangledown_{\Phi}E_{P(\epsilon)}[\log p_{\theta}(x, z)-\log q_{\Phi}] \\ &=E_{P(\epsilon)}[\bigtriangledown_{\Phi}(\log p_{\theta}(x, z)-\log q_{\Phi})] \\ &=E_{P(\epsilon)}[\bigtriangledown_{z}(\log p_{\theta}(x, z)-\log q_{\Phi})\cdot\bigtriangledown_{\Phi}z] \\ &=E_{P(\epsilon)}[\bigtriangledown_{z}(\log p_{\theta}(x, z)-\log q_{\Phi})]\bigtriangledown_{\Phi}g_{\Phi}(\epsilon, x) \end{aligned}$
其中， $P(\epsilon)$ 是我们自己取的分布，如均匀分布、正态分布，方便采样， $\bigtriangledown_{z}(\log p_{\theta}(x, z)-\log q_{\Phi})$ 和 $\bigtriangledown_{\Phi}g_{\Phi}(\epsilon, x)$ 都是已知的假设条件，此时再根据MCMC采样就可以得到梯度值了。然后根据梯度上升公式更新即可
$\Phi^{(t+1)}=\Phi^{(t)}+\lambda \bigtriangledown_{\Phi}\mathcal{L(\Phi)}$
这就是随机梯度变分法（Stochastic Gradient Variational Inference, SGVI）。

3.总结

我们说明了变分的背景，以及变分推断的作用，是为了求一些在比较难求的后验，通常在无向图里使用。第二部分我们从最原始的条件推导变分，利用了平均场假设，说明了可以用坐标上升法和梯度上升法来求取后验。变分的主要作用就是求后验概率。
水平有限，如有错误，敬请指正。

回想sy

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
变分推断学习

#! https://zhuanlan.zhihu.com/p/401456634变分推断1.变分推断的背景在机器学习中，有很多求后验概率的问题，求后验概率的过程被称为推断（Inference），推断分为精确推断和近似推断。精确推断一般主要是根据贝叶斯等概率公式推导出后验概率，但在一些生成模型中，如RBM, DBN, DBM很难应用精确推断，于是乎我们就有了近似推断，近似推断又分为确定性近似和随机性近似,确定性近似方法就是变分推断（Variance Inference， VI），随机性近似的方法
复制链接

扫一扫

专栏目录