潜在语义分析(TF-IDF、LSA)

最新推荐文章于 2024-08-23 11:56:20 发布

清水一个僧

最新推荐文章于 2024-08-23 11:56:20 发布

阅读量916

点赞数 1

文章标签：数据挖掘数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44337883/article/details/124179042

版权

单词向量空间（TF-IDF）

单词-文本矩阵

给定一个含有n个文本的集合D={d1,d2,d3,...,dn}，以及在所有文本中出现m个单词的集合W={w1,w2,...,wm}。将单词在文本中出现的数据用一个单词文本矩阵表示，记作X

$X=\begin{bmatrix} x_{11}& x_{21}& .& . & x_{1n}& \\ t_{21}& x_{22}& .& .& x_{2n}& \\ .& .& & & .& \\ .& .& & & .& \\ .& .& & & .& \\ x_{m1}& t_{m2}& .& .& x_{mn}& \end{bmatrix}$

这是一个m×n的矩阵，元素xij表示单词wi在文本dj中出现的频数或者权值

应用统计方法：单词在文本的权值表示采用TF-IDF。

权值通常使用单词频率-逆文本频率（term frequency-inverse document frequency,TF-IDF）

$\large TFIDF_{ij}=\frac{tf_{ij}}{tf_{.j}}log\frac{df}{df_{i}}$

$tf_{ij}$ 是单词wi出现在文本dj中的频数， $tf_{.j}$ 是文本dj出现在所有单词的频数之和，dfi是含有单词wi的文本数，df是文本集合D的全部文本数。

利用单词向量来表示文本之间的语义相似程度方法为：计算两个单词向量的内积或者标准化内积（余弦）

$x_{i}\cdot x_{j},\frac{x_{i}\cdot x_{j}}{||x_{i}||||x_{j}||}$

对于单词向量空间来说当有语义相近的词时不能很好的表征文本之间语义相似程度，所以引入了话题向量空间。

话题向量空间

单词-话题

假设所有文本中含有k个话题，假设每个话题由一个定义在单词集合W上的m维向量表示，称为话题向量。

$t_{l}=\begin{bmatrix} t_{1l}\\ t_{2l}\\ .\\ .\\ .\\ t_{ml} \end{bmatrix},l=1,2,3,...,k$

$t_{il}$ 是单词wi在话题 $t_{l}$ 的权值，权值越大，该单词在该话题中的重要度越大

话题向量空间T可也表示为一个矩阵，称为单词-话题矩阵，记作

$T=\begin{bmatrix} t_{11}& t_{21}& .& . & t_{1k}& \\ t_{21}& t_{22}& .& .& t_{2k}& \\ .& .& & & .& \\ .& .& & & .& \\ .& .& & & .& \\ t_{m1}& t_{m2}& .& .& t_{mk}& \end{bmatrix}$

文本-话题

考虑文本集合D的文本dj，在单词向量空间中由一个向量xj表示，将xj投影到话题向量空间T中，得到话题向量空间的一个向量yj，yj是一个K维的向量。

$y_{j}=\begin{bmatrix} y_{1j}\\ y_{2j}\\ .\\ .\\ .\\ y_{kj} \end{bmatrix},j=1,2,3,...,n$

ylj是文本dj在话题tl的权值，权值越大，该话题在该文本中的重要程度就越高。

矩阵Y表示话题在文本中的情况，称为话题-文本矩阵

$Y=\begin{bmatrix} y_{11}& y_{21}& .& . & y_{1n}& \\ y_{21}& y_{22}& .& .& y_{2n}& \\ .& .& & & .& \\ .& .& & & .& \\ .& .& & & .& \\ y_{k1}& y_{k2}& .& .& y_{kn}& \end{bmatrix}$

从单词向量空间到话题向量空间的线性转换

潜在语义分析

单词文本矩阵X可近似由单词话题矩阵T与话题文本矩阵Y的乘积形式表示。

$X\approx TY$

LSA要做的就是在已知X的情况下求得TY。

主要方法有：

矩阵奇异值分解
非负矩阵分解

清水一个僧

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
潜在语义分析(TF-IDF、LSA)

单词向量空间（TF-IDF）单词-文本矩阵给定一个含有n个文本的集合D={d1,d2,d3,...,dn}，以及在所有文本中出现m个单词的集合W={w1,w2,...,wm}。将单词在文本中出现的数据用一个单词文本矩阵表示，记作X这是一个m×n的矩阵，元素xij表示单词wi在文本dj中出现的频数或者权值应用统计方法：单词在文本的权值表示采用TF-IDF。权值通常使用单词频率-逆文本频率（term frequency-inverse document frequency,TF-IDF）
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。