第十七章:潜在语义分析
单词向量空间
假设 某 一 个 文 本 为 一 个 向 量 \color{red}{某一个文本为一个向量} 某一个文本为一个向量,而 向 量 的 每 一 维 对 应 某 个 单 词 在 该 文 本 中 的 频 数 或 者 权 值 \color{red}{向量的每一维对应某个单词在该文本中的频数或者权值} 向量的每一维对应某个单词在该文本中的频数或者权值(TF-IDF,具体定义可查看书籍,是一个单词在文本综合重要度的体现),那么文本集合就可以表示为一个 m × n 的 单 词 − 文 本 矩 阵 X \color{red}{m\times{n}的单词-文本矩阵 X} m×n的单词−文本矩阵X其中,m为可能出现的单词总数,n为文本的个数;
那么向量空间的度量(內积、标准化內积)表示文本之间的‘语义相关度’,但是这种度量存在一个问题,即 多 词 同 意 、 一 词 多 义 \color{red}{多词同意、一词多义} 多词同意、一词多义,那么基于单词向量的相似度计算就存在 不 准 确 问 题 \color{red}{不准确问题} 不准确问题
话题向量空间
话题指文本所讨论的内容或主题;由若干个语义相关的单词表示;
m × k 阶 单 词 − 话 题 矩 阵 T : \color{red}{m\times{k} 阶单词-话题矩阵 T:} m×k阶单词−话题矩阵T:列向量表示某一个话题中各个单词的权值,叫做话题向量;
k × n 阶 话 题 − 文 本 矩 阵 Y : \color{red}{k\times{n} 阶话题-文本矩阵 Y:} k×n阶话题−文本矩阵Y:列向量表示某一个文本中各话题的权值;
那么: X ≈ T Y \color{red}{X\approx{TY}} X≈TY就表示潜在语义分析,为单词向量空间X到话题向量空间的线性变换,即: 在 单 词 向 量 空 间 的 文 本 向 量 x j 可 以 由 k 个 话 题 向 量 以 y j 为 系 数 的 线 性 组 合 近 似 表 示 : \color{red}{在单词向量空间的文本向量 x_j 可以由k个话题向量以y_j为系数的线性组合近似表示:} 在单词向量空间的文本向量xj可以由k个话题向量以yj为系数的线性组合近似表示:
x j ≈ y 1 j t 1 + y 2 j t 2 + ⋯ + y k j t k , j = 1 , 2 , ⋯ , n \color{red}{x_j\approx{y_{1j}t_1+y_{2j}t_2}+\cdots+y_{kj}t_k,j=1,2,\cdots,n} xj≈y1jt1+y2jt2+⋯+ykjtk,j=1,2,⋯,n
奇异值分解算法
由潜在语义分析表达式 X ≈ T Y \color{red}{X\approx{TY}} X≈TY可以知道,可以对 X \color{red}{X} X进行 截 断 奇 异 值 分 解 \color{red}{截断奇异值分解} 截断奇异值分解,即 X ≈ U k Σ k V k T = U k ( Σ k V k T ) \color{red}{X\approx{U_k\Sigma_kV_k^T=U_k(\Sigma_kV_k^T)}} X≈UkΣkVkT=Uk(ΣkVkT),这样就得到了话题空间: T = U k \color{red}{T=U_k} T=Uk,以及文本在话题空间的表示: Y = Σ k V k T \color{red}{Y=\Sigma_kV_k^T} Y=ΣkVkT
非负矩阵分解算法
由于 X 非负,所以可以使用非负矩阵算法将 X 分解为两个非负矩阵: X ≈ W H \color{red}{X\approx{WH}} X≈WH,W 为基矩阵,H 为系数矩阵;分别对应着话题空间和文本在话题向量空间的表示;
非负矩阵分解可以形式化为损失函数的最小化,即最优化问题:
min W , H ∣ ∣ X − W H ∣ ∣ 2 \color{red}{\displaystyle\min_{W,H}||X-WH||^2} W,Hmin∣∣X−WH∣∣2
s . t . W , H ≥ 0 \color{red}{s.t. W,H\geq0} s.t.W,H≥0
上面是平方损失函数,还可以使用散度损失函数(定义可查看书籍)
求解上最优化问题的解使用基于 ‘ 乘 法 更 新 原 则 ’ \color{red}{‘乘法更新原则’} ‘乘法更新原则’的迭代算法(梯度下降法),详细算法可参见书籍;