word2vec学习笔记（Skip-gram/CBOW + Hierarchy Huffman Tree/Negative sampling）

最新推荐文章于 2021-06-28 11:03:21 发布

VIP文章 luqian1996

最新推荐文章于 2021-06-28 11:03:21 发布

阅读量1.4k

点赞数 1

分类专栏： nlp

本文链接：https://blog.csdn.net/z892144672/article/details/83895375

版权

前言

word2vec是谷歌在2013年推出的一个开源的word embedding工具，背后的模型包括CBoW ( Continuous Bag of Words )模型（输入context words，输出center word）和Skip-gram (输入center word，输出context words)模型。其实两个模型输出的都是softmax向量，维度与词向量维度相同，每一维度代表对应的词的后验概率，输出的words就是后验概率最大的一个或多个单词。
本篇文章是阅读了关于word2vec的一些资料以后，为了防止遗忘而整理的学习笔记，涉及对word2vec、skip-gram、CBoW （with/without hierarchy huffman tree & negative sampling）的个人理解，主要是为了在需要时方便查阅及时想起来word2vec是怎么一回事，所以在描述上不会用大量的严谨的数学语言，易于理解为主。

（一）无优化的word2vec

不经任何优化方法的word2vec的流程大概是这样（window size=2, 以 I like the little dog为例）：

1.对于skip-gram而言：

（1）输入the这个单词的独热表示（one-hot representation）[0,0,0,1,0,…,0,0], 这是一个长度为V的稀疏向量，V代表整个预料中的词汇数。
（2）用上面这个独热表示的向量乘一个大矩阵M1， M1一共有V行，每一行的维度就是我们自己设定的embedding dimension，每一行对应一个单词的input vector。这个乘的过程相当于一个映射或者说索引查找，通过这一步，得到了“the”的向量。
（3）“ I like the little dog”这个窗口提供了四个单词对：（the,I), (the,like), (the, little), (the, dog) ，要做的就是最大化这四个单词对的概率即 P(the,I)* P(the,like)*P (the, little)*P (the, dog) ，其中 $\frac{e^{v("the")u^T("I")}}{\sum_{i=1}^v{e^{v("the")u^T_i}}}$ ，u来自第二个大矩阵M2，同样有V行, 每一行代表对应单词的output vector。其他三个也是一样的形式。对每一个窗口都要做这样一个操作，其中涉及到的参数有v(center-word), u(context-words), 还有归一化项里面的所有u(Vocabulary)，也就是对所有M2里的项都要进行更新，计算量庞大。

2.对于CBoW而言：

输入v(I)、v(like)、v(little)、v(dog)的独热表示映射到的四个input vetor的平均向量v(mean)，最大化

最低0.47元/天解锁文章

luqian1996

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
word2vec学习笔记（Skip-gram/CBOW + Hierarchy Huffman Tree/Negative sampling）

前言 word2vec是谷歌在2013年推出的一个开源的word embedding工具，背后的模型包括CBoW ( Continuous Bag of Words )模型（输入context words，输出center word）和Skip-gram (输入center word，输出context words)模型。其实两个模型输出的都是softmax向量，维度与词向量维度相...
复制链接

扫一扫