LDA主题模型(三)变分方法

最新推荐文章于 2024-05-14 20:41:50 发布

xuqn0606

最新推荐文章于 2024-05-14 20:41:50 发布

阅读量816

点赞数

分类专栏： nlp 文章标签： LDA 主题模型 nlp

本文链接：https://blog.csdn.net/xuqn0606/article/details/83755541

版权

本文详细介绍了LDA主题模型的变分推断方法，包括变分推断与EM的区别、LDA的变分推断思路、参数求解任务的转化以及求解最优变分参数和模型参数的步骤。通过E步和M步的迭代更新，最终得到模型参数α和β，以及主题词分布λ和文档主题分布γ。

摘要由CSDN通过智能技术生成

LDA主题模型(一)基本概念
 LDA主题模型(二)Gibbs采样方法
LDA主题模型(三)变分方法

变分推断

变分推断的过程类似于EM过程，区别在于
　　EM：计算隐变量的后验概率期望得到下界
　　变分：计算KL散度得到下界
　　具体关于变分的讲解网上有很多，我看的只是一知半解因此贴上一篇对我很有帮助的博客

LDA的变分推断

还是回到开始，看LDA的模型图
在这里插入图片描述
　　在这个模型中，我们有观测值 $w_m,n$ ,有隐变量 $\theta,\varphi,z$ ,有模型参 $\alpha,\beta$ ,如果是EM的思想需要在E步先求出来 $\theta,\varphi,z$ 的后验概率期望，然后在M步最大化期望，但是我们可以发现 $\theta,\varphi,z$ 之间并不知相互独立的，也就是存在耦合现象，那么就需要采用变分推断的方法。
　　变分推断存在一个假设：每个隐变量都是通过独立的分布形成的，因此可以用这些独立分布来近似隐变量的后验概率分布。得到隐变量的后验概率分布之后，就可以得到模型参数 $\alpha,\beta$ ，进而得到LDA模型的主档-主题分布 $\theta$ 和主题-词分布 $\varphi$ 。
　　注意：这里与Gibbs采样不同，Gibbs采样是通过采样直接得到 $\theta,\varphi$ ,而 $\alpha,\beta$ 是作为超参事先选择好的。而变分方法最后直接得到了 $\alpha,\beta$ 的值，已经知道 $\theta,\varphi$ 分别服从参数为 $\alpha,\beta$ 的Dirichlet的分布，可以根据某文档得到一组 $\theta,\varphi$ ，后面我们还可以看到我们可以得到 $\theta,\varphi$ 近似分布。所以说Gibbs采样是随机近似推断而变分是确定近似推断。

LDA变分推断思路

1.参数求解任务的转化

我们本来要求隐藏变量的后验概率分布如下 $p(\theta,\varphi, z | w, \alpha, \beta) = \frac{p(\theta,\varphi, z, w| \alpha, \beta)}{p(w|\alpha, \beta)}$
　　但是由于耦合现象，无法直接求上式，因此我们引入变分参数，假设
变量θ是由独立分布γ形成的，隐藏变量z是由独立分布ϕ形成的，隐藏变量 $\varphi$ 是由独立分布λ形成的。这样我们得到了三个隐藏变量联合的变分分布q为
$q(\varphi, z, \theta|\lambda,\phi, \gamma) = \prod_{k=1}^Kq(\varphi_k|\lambda_k)\prod_{d=1}^Mq(\theta_d, z_d|\gamma_d,\phi_d) \\ = \prod_{k=1}^Kq(\varphi_k|\lambda_k)\prod_{d=1}^M(q(\theta_d|\gamma_d)\prod_{n=1}^{N_d}q(z_{dn}| \phi_{dn}))$
　　我们希望用 $q(\varphi, z, \theta|\lambda,\phi, \gamma)$ 来近似估计 $p(\theta,\varphi, z | w, \alpha, \beta)$ ,衡量两个分布相似的指标是KL散度，即现在的目标是 $(\lambda^*,\phi^*, \gamma^*) = \underbrace{arg \;min}_{\lambda,\phi, \gamma} D(q(\varphi, z, \theta|\lambda,\phi, \gamma) || p(\theta,\varphi, z | w, \alpha, \beta))$
　　KL散度的公式为 $\sum\limits_{x}q(x)log\frac{q(x)}{p(x)} = E_{q(x)}(log\;q(x) - log\;p(x))$ ,但是上面的式子根本没法求变分参数，那只好先看我们有什么数据了，我们只有文档数据，因此可以得到文档数据的对数似然函数
　　 $log(w|\alpha,\beta) = log \int\int \sum\limits_z p(\theta,\varphi, z, w| \alpha, \beta) d\theta d\varphi \\ = log \int\int \sum\limits_z \frac{p(\theta,\varphi, z, w| \alpha, \beta) q(\varphi, z, \theta|\lambda,\phi, \gamma)}{q(\varphi, z, \theta|\lambda,\phi, \gamma)}d\theta d\varphi \\ = log\;E_q \frac{p(\theta,\varphi, z, w| \alpha, \beta) }{q(\varphi, z, \theta|\lambda,\phi, \gamma)} \\ \geq E_q\; log\frac{p(\theta,\varphi, z, w| \alpha, \beta) }{q(\varphi, z, \theta|\lambda,\phi, \gamma)} \\ = E_q\; log{p(\theta,\varphi, z, w| \alpha, \beta) } - E_q\; log{q(\varphi, z, \theta|\lambda,\phi, \gamma)}$

最低0.47元/天解锁文章

xuqn0606

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
LDA主题模型(三)变分方法

LDA主题模型(一)基本概念LDA主题模型(二)Gibbs采样方法LDA主题模型(三)变分方法变分推断变分推断的过程类似于EM过程，区别在于　　EM：计算隐变量的后验概率期望得到下界　　变分：计算KL散度得到下界　　具体关于变分的讲解网上有很多，我看的只是一知半解因此贴上一篇我觉得还可以的博客LDA的变分推断还是回到开始，看LDA的模型图　　在这个模型中，我们有观测值wm,n...
复制链接

扫一扫

专栏目录