统计学习方法学习笔记：第十七章.潜在语义分析

最新推荐文章于 2021-05-22 16:27:36 发布

小滔滔ahh

最新推荐文章于 2021-05-22 16:27:36 发布

阅读量256

点赞数

分类专栏：统计学习

本文链接：https://blog.csdn.net/weixin_44692791/article/details/102917080

版权

统计学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

第十七章：潜在语义分析

单词向量空间

假设 $\color{red}{某一个文本为一个向量}$ ，而 $\color{red}{向量的每一维对应某个单词在该文本中的频数或者权值}$ （TF-IDF,具体定义可查看书籍，是一个单词在文本综合重要度的体现），那么文本集合就可以表示为一个 $\color{red}{m\times{n}的单词-文本矩阵 X}$ 其中，m为可能出现的单词总数，n为文本的个数；

那么向量空间的度量（內积、标准化內积）表示文本之间的‘语义相关度’，但是这种度量存在一个问题，即 $\color{red}{多词同意、一词多义}$ ，那么基于单词向量的相似度计算就存在 $\color{red}{不准确问题}$

话题向量空间

话题指文本所讨论的内容或主题；由若干个语义相关的单词表示；

$\color{red}{m\times{k} 阶单词-话题矩阵 T：}$ 列向量表示某一个话题中各个单词的权值，叫做话题向量；

$\color{red}{k\times{n} 阶话题-文本矩阵 Y：}$ 列向量表示某一个文本中各话题的权值；

那么： $\color{red}{X\approx{TY}}$ 就表示潜在语义分析，为单词向量空间X到话题向量空间的线性变换，即： $\color{red}{在单词向量空间的文本向量 x_j 可以由k个话题向量以y_j为系数的线性组合近似表示：}$

$\color{red}{x_j\approx{y_{1j}t_1+y_{2j}t_2}+\cdots+y_{kj}t_k，j=1,2，\cdots,n}$

奇异值分解算法

由潜在语义分析表达式 $\color{red}{X\approx{TY}}$ 可以知道，可以对 $\color{red}{X}$ 进行 $\color{red}{截断奇异值分解}$ ，即 $\color{red}{X\approx{U_k\Sigma_kV_k^T=U_k(\Sigma_kV_k^T)}}$ ，这样就得到了话题空间： $\color{red}{T=U_k}$ ，以及文本在话题空间的表示： $\color{red}{Y=\Sigma_kV_k^T}$

非负矩阵分解算法

由于 X 非负，所以可以使用非负矩阵算法将 X 分解为两个非负矩阵： $\color{red}{X\approx{WH}}$ ,W 为基矩阵，H 为系数矩阵；分别对应着话题空间和文本在话题向量空间的表示；

非负矩阵分解可以形式化为损失函数的最小化，即最优化问题：

$\color{red}{\displaystyle\min_{W,H}||X-WH||^2}$

$\color{red}{s.t. W,H\geq0}$

上面是平方损失函数，还可以使用散度损失函数（定义可查看书籍）

求解上最优化问题的解使用基于 $\color{red}{‘乘法更新原则’}$ 的迭代算法（梯度下降法），详细算法可参见书籍；

小滔滔ahh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法学习笔记：第十七章.潜在语义分析

第十七章：潜在语义分析单词向量空间假设某一个文本为一个向量\color{red}{某一个文本为一个向量}某一个文本为一个向量，而向量的每一维对应某个单词在该文本中的频数或者权值\color{red}{向量的每一维对应某个单词在该文本中的频数或者权值}向量的每一维对应某个单词在该文本中的频数或者权值（TF-IDF,具体定义可查看书籍，是一个单词在文本综合重要度的体现），那么文本集合就可以表示为一...
复制链接

扫一扫