概率潜在语义分析（ PLSA）详解

最新推荐文章于 2024-05-22 21:46:02 发布

zhong_ddbb

最新推荐文章于 2024-05-22 21:46:02 发布

阅读量3.1k

点赞数 2

分类专栏：自然语言处理机器学习基础文章标签：算法 nlp 数据挖掘机器学习

本文链接：https://blog.csdn.net/zhong_ddbb/article/details/106317068

版权

机器学习基础同时被 2 个专栏收录

31 篇文章

订阅专栏

自然语言处理

11 篇文章

订阅专栏

文章目录

生成模型
共现模型
模型性质
- 模型参数
- 与LSA关系
PLSA实现算法

概率潜在语义分析（probabilistic latent semantic analysis, PLSA）是一种利用概率生成模型对文本集合进行话题分析的无监督方法。 模型最大的特点是用隐变量表示话题，整个模型表示文本生成话题，话题生成单词，从而得到单词—文本共现数据的过程。 假设每个文本由一个话题分布决定，每个话题由一个单词分布决定。潜在语义分析基于非概率模型，概率潜在语义分析基于概率模型。

生成模型

假设有M个单词集合 $W=\{w_1,w_2.\ldots,w_M\}$ ，N个文本集合 $D=\{d_1,d_2,\ldots,d_N\}$ ，K个话题集合 $Z=\{z_1,z_2,\ldots,z_K\}$ ，概率分布 $P (d)$ 表示生成文本 $d$ 的概率， $P (z ∣ d)$ 表示文本d生成话题 $z$ 的概率， $P (w ∣ z)$ 表示话题 $z$ 生成单词 $w$ 的概率。

生成模型步骤如下：

（1）依据概率分布 $P (d)$ ，从文本集合中随机选取一个文本 $d$ ，共生成 $N$ 个文本。

（2）在给定文本 $d$ 的条件下，依据条件概率分布 $P (z ∣ d)$ ，从话题集合中随机选取一个话题 $z$ ，共生成 $L$ 个话题（L是指文本长度）。

（3）在给定话题 $z$ 的条件下，依据条件概率分布 $P (w ∣ z)$ ，从单词集合中随机选取一个单词 $w$ 。

此过程即为概率潜在语义分析的生成模型，生成模型是有向图模型，如下所示：

在这里插入图片描述
图中空心圆表示隐变量，方框内的数字表示重复的次数。

从数据生成的过程可以推出，单词—文本共现数据 $T$ 的生成概率为所有的单词—文本对 $(w, d)$ 的生成概率的乘积：
$\prod_{w,d} P(w,d)^{n(w,d)}$
其中， $n (w, d)$ 表示 $(w, d)$ 出现的次数。每个单词—文本对 $(w, d)$ 的生成概率如下：
$\begin{aligned} P(w,d) & =P(d)P(w|d) \\ &= P(d)\sum_{z} P(w,z|d) \\ & = P(d)\sum_{z} P(z|d)P(w|z) \end{aligned}$
这就是生成模型的定义。

共现模型

共现模型与生成模型的不同在于: 每个单词—文本对 $(w, d)$ 的生成概率不同。
$\sum_{z\in Z} P(z)P(w|z)P(d|z)$
由上式可知：**共现模型假设在话题 $z$ 给定的条件下，单词 $w$ 与文本 $d$ 是条件独立的，**即：
$P (w, d ∣ z) = P (w ∣ z) P (d ∣ z)$
共现模型如下图所示：

在这里插入图片描述

区别：

生成模型刻画文本—单词共现数据生成的过程，共现模型描述文本单词共现数据拥有的模式。生成模型式中单词变量w与文本变量d是非对称的，而共现模型式中单词变量w与文本变量d是对称的；所以前者也称为非对称模型，后者也称为对称模型。

模型性质

模型参数

假设有M个单词，N个文本，如果直接定义单词与文本的共现概率 $P (w, d)$ ，模型的参数个数是 $O(M\cdot N)$ ，而PLSA的生成模型和共现模型的参数个数是 $O(M\cdot K+ N\cdot K)$ ，其中K是话题数。K远小于M，所以极大的减小了参数个数。下图显示了文本、话题、单词之间的关系。

在这里插入图片描述

与LSA关系

PLSA的共现模型：
$\sum_{z\in Z} P(z)P(w|z)P(d|z)$
也可以表示为三个矩阵的乘积的形式。
$\begin{aligned} &X' = U'\Sigma' V'^T \\ & X' = [P(w,d)]_{M\times N} \\ & U' = [P(w|z)]_{M\times K}\\ & \Sigma' = [P(z)]_{K\times K}\\ & V' = [P(d|z)]_{N\times K}\\ \end{aligned}$

PLSA实现算法

PLSA是含有隐变量的模型，学习通常使用EM算法。

假设有M个单词集合 $W=\{w_1,w_2.\ldots,w_M\}$ ，N个文本集合 $D=\{d_1,d_2,\ldots,d_N\}$ ，K个话题集合 $Z=\{z_1,z_2,\ldots,z_K\}$ 。给定单词—文本共现数据 $T=\{n(w_i,d_j)\},i=1,2,\ldots,M; j=1,2,\ldots,N$ ，目标是估计PLSA（生成模型）的参数，使用极大似然估计，对数似然函数是：
$\begin{aligned}L(\theta)&=\log \prod_{i=1}^M\prod_{j=1}^N P(d_j,w_i)^{n(d_j,w_i)}\\ &=\sum_i^M\sum_j^N n(d_j,w_i)\log P(d_j,w_i)\\ &=\sum_i^M\sum_j^N n(d_j,w_i)\log[\sum_{k=1}^K P(w_i|z_k)P(z_k|d_j)]\\ \end{aligned}$
模型含有隐变量，对数似然函数的优化方法无法用解析方法求解，使用EM算法进行求解。EM算法推导过程参考李航统计学习方法第二版第18章，这里直接给出了结论。算法流程如下：

输入：有M个单词集合 $W=\{w_1,w_2.\ldots,w_M\}$ ，N个文本集合 $D=\{d_1,d_2,\ldots,d_N\}$ ，K个话题集合 $Z=\{z_1,z_2,\ldots,z_K\}$ 。给定单词—文本共现数据 $T=\{n(w_i,d_j)\},i=1,2,\ldots,M; j=1,2,\ldots,N$ ；

输出： $P(w_i|z_k),P(z_k|d_j)$ 。

（1）设置参数 $P(w_i|z_k),P(z_k|d_j)$ 的初始值。

（2）迭代执行E步，M步，直到收敛为止。

E步：
$P(z_k|w_i,d_j) = \frac{P(w_i|z_k)P(z_k|d_j)}{\sum_{k=1}^K P(w_i|z_k)P(z_k|d_j)}$
M步：
$P(w_i|z_k) = \frac{\sum_{j=1}^N n(w_i,d_j)P(z_k|w_i,d_j)}{\sum_{i=1}^M\sum_{j=1}^N n(w_i,d_j)P(z_k|w_i,d_j)}$

$P(z_k|d_j) = \frac{\sum_{i=1}^M n(w_i,d_j)P(z_k|w_i,d_j)}{n(d_j)}$