word2vec 笔记

本文详细介绍了word2vec的背景,包括语言模型、词向量的概念,以及CBOW和Skip-gram模型的工作原理。此外,还讨论了层次Softmax和负采样两种加速训练的方法,以及word2vec在面试中常被问到的问题。
摘要由CSDN通过智能技术生成

word2vec 是 Google 于 2013年开源的一个用于获取词向量的工具包,作者是 Tomas Mikolov,不过现在他已经从 Google Brain 跳槽到了 Facebook Research,后来还参与了 fasttext 项目的研究。下面是我读博客 word2vec 中的数学原理 的一些笔记和总结。

Language Model (语言模型)

统计语言模型(statistical language model)是自然语言处理里比较常见的一个概念,是建立在一段序列(比如一句话)上联合概率分布。比如 “我/特别/喜欢/跑步”这句话(’/’符号表示分词,假设我们序列的基本单位是词语),其概率可以分解(factorize)成

p()=p()p(|)p(|)p(|)

观察一下条件概率就可以发现,如果尝试对上面的每个概率建立概率分布,词表的大小将会非常大,要拟合的参数也非常大。因此上面只是理论分析,并不是实用,我们可以考虑一些近似的计算。考虑做 N-1 阶马尔可夫假设,即第 N 个词的概率,只依赖于其前面 N-1 个词的概率。这样就得到了 N-gram 模型。写成链式法则(chain rule)就是

p(w1,...,wm)=i=1mP(wi|w1,...,wi1)i=1mP(wi|wi(N1),...,wi1)
如 N=2 时,叫做 bigram 模型,每个词出现的概率只和前一个词有关,那么例子里的公式退化成,
p()p()p(|)p(|)p(|)

如果词汇表的大小是 |V| ,那么 bigram 要学习的参数就是 p(wi|

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值