word2vec 笔记

最新推荐文章于 2024-02-20 17:09:35 发布

张小彬的代码人生

最新推荐文章于 2024-02-20 17:09:35 发布

阅读量4.9k

点赞数 2

分类专栏： NLP 文章标签： word2vec NLP 词向量 CBOW Skip-gram

本文链接：https://blog.csdn.net/zhangxb35/article/details/74716245

版权

本文详细介绍了word2vec的背景，包括语言模型、词向量的概念，以及CBOW和Skip-gram模型的工作原理。此外，还讨论了层次Softmax和负采样两种加速训练的方法，以及word2vec在面试中常被问到的问题。

摘要由CSDN通过智能技术生成

word2vec 是 Google 于 2013年开源的一个用于获取词向量的工具包，作者是 Tomas Mikolov，不过现在他已经从 Google Brain 跳槽到了 Facebook Research，后来还参与了 fasttext 项目的研究。下面是我读博客 word2vec 中的数学原理的一些笔记和总结。

Language Model （语言模型）

统计语言模型（statistical language model）是自然语言处理里比较常见的一个概念，是建立在一段序列（比如一句话）上联合概率分布。比如 “我/特别/喜欢/跑步”这句话（’/’符号表示分词，假设我们序列的基本单位是词语），其概率可以分解（factorize）成

p (“ 我 特 别 喜 欢 跑 步 ”) = p (“ 我 ”) p (“ 特 别 ” | “ 我 ”) p (“ 喜 欢 ” | “ 我 特 别 ”) p (“ 跑 步 ” | “ 我 特 别 喜 欢 ”)

$p(“我特别喜欢跑步”)= p(“我”)p(“特别”|“我”)p(“喜欢”|“我特别”)p(“跑步”|“我特别喜欢”)$

观察一下条件概率就可以发现，如果尝试对上面的每个概率建立概率分布，词表的大小将会非常大，要拟合的参数也非常大。因此上面只是理论分析，并不是实用，我们可以考虑一些近似的计算。考虑做 N-1 阶马尔可夫假设，即第 N 个词的概率，只依赖于其前面 N-1 个词的概率。这样就得到了 N-gram 模型。写成链式法则（chain rule）就是

p (w 1, . . ., w m) = \prod i = 1 m P (w i | w 1, . . ., w i - 1) \approx \prod i = 1 m P (w i | w i - (N - 1), . . ., w i - 1)

$p(w_1,...,w_m)=\prod_{i=1}^m P(w_i|w_1,...,w_{i-1}) \approx \prod_{i=1}^m P(w_i|w_{i-(N-1)},...,w_{i-1})$ 如 N=2 时，叫做 bigram 模型，每个词出现的概率只和前一个词有关，那么例子里的公式退化成，