NLP 3.6 LDA, Gibbs sampling & collapsed gibbs sampling

weixin_51182518

于 2021-02-24 07:30:57 发布

阅读量435

点赞数 1

文章标签：机器学习自然语言处理深度学习

本文链接：https://blog.csdn.net/weixin_51182518/article/details/113977625

版权

1、主题模型 LDA

在这里插入图片描述

朴素贝叶斯每次只考虑当前的一个topic，只考虑对于当前topic中的词对于topic的影响。

在这里插入图片描述

贝叶斯模型的定义：

MLE和MAP的都是频率派
通过学习估算出一个最优解

1、MLE
在这里插入图片描述

2、MAP：后验概率 既考虑likelihood也考虑先验概率

在这里插入图片描述
3、Bayesian
不是估计哪个参数最好，计算所有可能的 $\theta$ 求积分
在训练值已知的情况下，预测出 $\theta$ 的分布。
贝叶斯模型的核心：计算
$p(\theta|D)$ 的分布概率

计算训练集中所有的模型参数的可能的是很困难的，所以使用蒙特卡洛方法进行近似采样。

在这里插入图片描述

Markov chain Monte Cartlo(增加依赖关系)

在这里插入图片描述

目标：生成document，写一个文档。
基于参数，会生成文档。
在这里插入图片描述

第一步：选择主题
case 1：只包含一个主题
case 2：包含多个主题
第二步：生成文章
生成list of words，lda不考虑单词的先后顺序
for j=1，2, …,99,100个单词
i）选择一个主题，选择一个合适的单词，比如科技
ii）在科技类别上选择合适的单词，对于科技类概率较大的词分布

针对每一个文档，先采样主题，在根据主体里的词分布，采样单词。

LDA 可以理解为是对文本的聚类，朴素贝叶斯是认定每个文本是属于一个主题，lda是考虑每个文本的主题是考虑了多种主题的概率分布，即每个文本都可能是任意一个主题，只不过成为任意一个主题的概率是不同的。

关注