单词向量空间(TF-IDF)
单词-文本矩阵
给定一个含有n个文本的集合D={d1,d2,d3,...,dn},以及在所有文本中出现m个单词的集合W={w1,w2,...,wm}。将单词在文本中出现的数据用一个单词文本矩阵表示,记作X
这是一个m×n的矩阵,元素xij表示单词wi在文本dj中出现的频数或者权值
应用统计方法:单词在文本的权值表示采用TF-IDF。
权值通常使用单词频率-逆文本频率(term frequency-inverse document frequency,TF-IDF)
是单词wi出现在文本dj中的频数,是文本dj出现在所有单词的频数之和,dfi是含有单词wi的文本数,df是文本集合D的全部文本数。
利用单词向量来表示文本之间的语义相似程度方法为:计算两个单词向量的内积或者标准化内积(余弦)
对于单词向量空间来说当有语义相近的词时不能很好的表征文本之间语义相似程度,所以引入了话题向量空间。
话题向量空间
单词-话题
假设所有文本中含有k个话题,假设每个话题由一个定义在单词集合W上的m维向量表示,称为话题向量。
是单词wi在话题的权值,权值越大,该单词在该话题中的重要度越大
话题向量空间T可也表示为一个矩阵,称为单词-话题矩阵,记作
文本-话题
考虑文本集合D的文本dj,在单词向量空间中由一个向量xj表示,将xj投影到话题向量空间T中,得到话题向量空间的一个向量yj,yj是一个K维的向量。
ylj是文本dj在话题tl的权值,权值越大,该话题在该文本中的重要程度就越高。
矩阵Y表示话题在文本中的情况,称为话题-文本矩阵
从单词向量空间到话题向量空间的线性转换
潜在语义分析
单词文本矩阵X可近似由单词话题矩阵T与话题文本矩阵Y的乘积形式表示。
LSA要做的就是在已知X的情况下求得TY。
主要方法有:
- 矩阵奇异值分解
- 非负矩阵分解