统计学习方法学习笔记:第十七章.潜在语义分析

第十七章:潜在语义分析

单词向量空间

假设 某 一 个 文 本 为 一 个 向 量 \color{red}{某一个文本为一个向量} ,而 向 量 的 每 一 维 对 应 某 个 单 词 在 该 文 本 中 的 频 数 或 者 权 值 \color{red}{向量的每一维对应某个单词在该文本中的频数或者权值} (TF-IDF,具体定义可查看书籍,是一个单词在文本综合重要度的体现),那么文本集合就可以表示为一个 m × n 的 单 词 − 文 本 矩 阵 X \color{red}{m\times{n}的单词-文本矩阵 X} m×nX其中,m为可能出现的单词总数,n为文本的个数;

那么向量空间的度量(內积、标准化內积)表示文本之间的‘语义相关度’,但是这种度量存在一个问题,即 多 词 同 意 、 一 词 多 义 \color{red}{多词同意、一词多义} ,那么基于单词向量的相似度计算就存在 不 准 确 问 题 \color{red}{不准确问题}

话题向量空间

话题指文本所讨论的内容或主题;由若干个语义相关的单词表示;

m × k 阶 单 词 − 话 题 矩 阵 T : \color{red}{m\times{k} 阶单词-话题矩阵 T:} m×kT列向量表示某一个话题中各个单词的权值,叫做话题向量;

k × n 阶 话 题 − 文 本 矩 阵 Y : \color{red}{k\times{n} 阶话题-文本矩阵 Y:} k×nY列向量表示某一个文本中各话题的权值;

那么: X ≈ T Y \color{red}{X\approx{TY}} XTY就表示潜在语义分析,为单词向量空间X到话题向量空间的线性变换,即: 在 单 词 向 量 空 间 的 文 本 向 量 x j 可 以 由 k 个 话 题 向 量 以 y j 为 系 数 的 线 性 组 合 近 似 表 示 : \color{red}{在单词向量空间的文本向量 x_j 可以由k个话题向量以y_j为系数的线性组合近似表示:} xjkyj线

x j ≈ y 1 j t 1 + y 2 j t 2 + ⋯ + y k j t k , j = 1 , 2 , ⋯   , n \color{red}{x_j\approx{y_{1j}t_1+y_{2j}t_2}+\cdots+y_{kj}t_k,j=1,2,\cdots,n} xjy1jt1+y2jt2++ykjtkj=1,2,n

奇异值分解算法

由潜在语义分析表达式 X ≈ T Y \color{red}{X\approx{TY}} XTY可以知道,可以对 X \color{red}{X} X进行 截 断 奇 异 值 分 解 \color{red}{截断奇异值分解} ,即 X ≈ U k Σ k V k T = U k ( Σ k V k T ) \color{red}{X\approx{U_k\Sigma_kV_k^T=U_k(\Sigma_kV_k^T)}} XUkΣkVkT=Uk(ΣkVkT),这样就得到了话题空间: T = U k \color{red}{T=U_k} T=Uk,以及文本在话题空间的表示: Y = Σ k V k T \color{red}{Y=\Sigma_kV_k^T} Y=ΣkVkT

非负矩阵分解算法

由于 X 非负,所以可以使用非负矩阵算法将 X 分解为两个非负矩阵: X ≈ W H \color{red}{X\approx{WH}} XWH,W 为基矩阵,H 为系数矩阵;分别对应着话题空间和文本在话题向量空间的表示;

非负矩阵分解可以形式化为损失函数的最小化,即最优化问题:

min ⁡ W , H ∣ ∣ X − W H ∣ ∣ 2 \color{red}{\displaystyle\min_{W,H}||X-WH||^2} W,HminXWH2

s . t . W , H ≥ 0 \color{red}{s.t. W,H\geq0} s.t.W,H0

上面是平方损失函数,还可以使用散度损失函数(定义可查看书籍)

求解上最优化问题的解使用基于 ‘ 乘 法 更 新 原 则 ’ \color{red}{‘乘法更新原则’} 的迭代算法(梯度下降法),详细算法可参见书籍;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值