word2vec理解及pytorch实现

最新推荐文章于 2024-06-25 11:32:19 发布

枫林扬

最新推荐文章于 2024-06-25 11:32:19 发布

阅读量7.5k

点赞数 4

分类专栏： NLP 机器学习文章标签： nlp 词嵌入

本文链接：https://blog.csdn.net/zhang2010hao/article/details/86616401

版权

word2vec理解及pytorch实现

word2vec优点
- 1.低维稠密
- 2.蕴含语义信息
Skip-gram模型
- 1.训练样本
- 2.skip-gram
负采样 negative sample
欠采样 subsample
pytorch实现

word2vec是Google研究团队的成果之一，它作为一种主流的获取分布式词向量的工具，在自然语言处理、数据挖掘等领域有着广泛的应用。本文首先会介绍一些预备知识，比如softmax、ngram、subsampling、neg-sampling等，之后来讲解word2vec的原理，并着手使用pytorch搭建word2vec模型。

word2vec优点

word2vec词向量与传统的one-hot词向量相比，主要有以下两个优势

1.低维稠密

一般来说分布式词向量的维度设置成100-500就足够使用，而one-hot类型的词向量维度与词表的大小成正比，是一种高维稀疏的表示方法，这种表示方法导致其在计算上效率比较低。

2.蕴含语义信息

one-hot这种表示方式使得每一个词映射到高维空间中都是互相正交的，也就是说one-hot向量空间中词与词之间没有任何关联关系，这显然与实际情况不符合，因为实际中词与词之间有近义、反义等多种关系。Word2vec虽然学习不到反义这种高层次语义信息，但它巧妙的运用了一种思想：“具有相同上下文的词语包含相似的语义”，使得语义相近的词在映射到欧式空间后中具有较高的余弦相似度。
$=\frac{vec_{apple}·vec_{banana}}{|vec_{apple}|·|vec_{banana}|}$

图1

Skip-gram模型

1.训练样本

怎么把“具有相同上下文的词语包含相似的语义”这种思想融入模型是很关键的一步，在模型中，两个词是否出现在一起是通过判断这两个词在上下文中是否出现在一个窗口内。例如，原始样本“The quick brown fox jumps over the lazy dog.”在送入模型前会经过图2所示处理（这里为了绘图简单假设窗口为2，一般窗口是设置成5）。

如图所示，skip-gram模型的输入是当前词，输出是当前词的上下文，虽然我们训练模型的时候喂的是一个个分词好的句子，但内部其实是使用一个个word pair来训练。同样是之前的case“The quick brown fox jumps over the lazy dog.”，假如窗口改为5，则（The，quick）这个word pair会成为一个训练样本。

假如两个词具有相同的输出，则可反推出作为输入的两个词之间具有较高相似性，接下来就是如何使用模型来实现上述目标。

图2

2.skip-gram

skip-gram模型与自编码器（Autoencoder）类似，唯一的区别在于自编码器的输出等于输入，而skip-gram模型的输出是输入的上下文。那么，作为训练样本的word pair应该以什么样的方式输入给模型？答案是one-hot向量，为了得到one-hot向量，必须首先知道训练语料中包含了多少词。因此，在训练之前会首先对语料进行统计，得到词表。假设词表长度为10000，词向量为300维，则skip-gram模型可表示为图3。

图3

如图3所示，假设输入的word pair为（ants, able），则模型拟合的目标是 $\ P(able|ants)$ ，同时也需要满足 $\ P(other \ words|ants)$ ，这里利用的是对数似然函数作为目标函数。上述表述中可表示为 $P (a b l e ∣ a n t s)$ ：
$P(able|ants)=softmax(X_{ants \ 1 \times 10000} · W_{10000 \times 300})$
$\frac {exp(X_{1 \times 300}·W_{300 \times 1})}{\sum_{i=1}^{10000}exp(X_{1 \times 300}^i·W_{300 \times 1})}$
根据 $P (a b l e ∣ a n t s)$ 和 $\ words|ants)$ ，可构建似然函数：
$L(W)=P(able|ants)^{y=able}·P(other \ words|ants)^{y=other \ words}$
则：
$\ L(W) = \{y=target \ word \} \{log \ P(able|ants) + log \ P(other \ words |ants) \} \\ = \sum_{i}^{10000} \{ y=target \ word \}logP(word_i|ants)$