word2vec学习笔记(Skip-gram/CBOW + Hierarchy Huffman Tree/Negative sampling)

前言

    word2vec是谷歌在2013年推出的一个开源的word embedding工具, 背后的模型包括CBoW ( Continuous Bag of Words )模型(输入context words, 输出center word)和Skip-gram (输入center word, 输出context words)模型。其实两个模型输出的都是softmax向量, 维度与词向量维度相同,每一维度代表对应的词的后验概率, 输出的words就是后验概率最大的一个或多个单词。
    本篇文章是阅读了关于word2vec的一些资料以后,为了防止遗忘而整理的学习笔记,涉及对word2vec、skip-gram、CBoW (with/without hierarchy huffman tree & negative sampling)的个人理解,主要是为了在需要时方便查阅及时想起来word2vec是怎么一回事,所以在描述上不会用大量的严谨的数学语言,易于理解为主。

(一) 无优化的word2vec

    不经任何优化方法的word2vec的流程大概是这样(window size=2, 以 I like the little dog为例):

1.对于skip-gram而言:

    (1)输入the这个单词的独热表示(one-hot representation)[0,0,0,1,0,…,0,0], 这是一个长度为V的稀疏向量,V代表整个预料中的词汇数。
    (2)用上面这个独热表示的向量乘一个大矩阵M1, M1一共有V行, 每一行的维度就是我们自己设定的embedding dimension,每一行对应一个单词的input vector。这个乘的过程相当于一个映射或者说索引查找,通过这一步,得到了“the”的向量。
    (3)“ I like the little dog”这个窗口提供了四个单词对:(the,I), (the,like), (the, little), (the, dog) ,要做的就是最大化这四个单词对的概率即 P(the,I)* P(the,like)*P (the, little)*P (the, dog) ,其中 p ( t h e , I ) = e v ( " t h e " ) u T ( " I " ) ∑ i = 1 v e v ( " t h e " ) u i T p(the, I) = \frac{e^{v("the")u^T("I")}}{\sum_{i=1}^v{e^{v("the")u^T_i}}} p(the,I)=i=1vev("the")uiTev("the")uT("I"),u来自第二个大矩阵M2,同样有V行, 每一行代表对应单词的output vector。 其他三个也是一样的形式。对每一个窗口都要做这样一个操作,其中涉及到的参数有v(center-word), u(context-words), 还有归一化项里面的所有u(Vocabulary),也就是对所有M2里的项都要进行更新,计算量庞大。

2.对于CBoW而言:

    输入v(I)、v(like)、v(little)、v(dog)的独热表示映射到的四个input vetor的平均向量v(mean),最大化 e v ( m e a n ) u T

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值