word2vec 原理及实现

天堂树4711

已于 2024-05-30 16:51:20 修改

阅读量1k

点赞数 11

分类专栏： nlp 文章标签： word2vec 人工智能自然语言处理

于 2024-05-30 15:58:15 首次发布

本文链接：https://blog.csdn.net/weixin_52147110/article/details/139299162

版权

nlp 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1. word2vec 工具

2013年，Tomas Mikolov 等人介绍了这种在大型语料库中进行文本预测的工具。这是一种基于大型数据集计算词向量的工具。与过去的神经网络语言模型（Neural Network Language Model, NNLM）相比，word2vec 去掉了其中的非线性隐含层，结构简单且高效。

1.1 词向量（word embedding）

词向量是自然语言处理（NLP）中的一种技术，把词或短语映射为向量空间中的点，每个词或短语被表示为一个固定大小的向量，这些向量能够捕捉词与词之间的语义关系。

在 word2vec 之前，词对用简单的 One-Hot Representation，这是一种将离散特征转换为数值形式的方法，其中每个特征都由一个二进制向量表示，也就是只有一个位置是1，其余位置都是0。

如下图所示，这种方法最大的问题就是无法表示词序和语义之间的关系。

word2vec 则是采用Distributed Representation，根据上下文内容训练得到词向量。例如“酒店”这个词可以表示为 [-0.25877362, -0.88175815, 0.2238769 , ... , -0.345875] ，不再是 one-hot 形式的稀疏向量，而是稠密向量。不过注意同一个词在不同的语料库和训练方法下得到的词向量并不相同。这种表示方式最大的优势在于空间向量中的点是有意义的，词之间的语法与语义相似关系反映在向量方向与距离上。

例如 Tomas Mikolov 的经典例子 Queen - King + Man = Woman

One-Hot Representation 和 Distributed Representation 都是词向量，旨在将不可直接用于计算机处理的文本内容转换为方便计算的数学问题。

参考文献：

文本向量化代码java实现 word2vec文本向量化_hackernew的技术博客_51CTO博客

1.2 语言模型（Language Models）

基于语言模型，可以根据上下文预测词语出现的概率。

以简单的统计模型为例，假设有n个词组成的句子，我们把生成这个句子的概率记为 $P$ ，假如各个词之间相互独立，那么 $P(w_{1}, w_{2}, ... , w_{n}) = \prod P(w_{i})$

实际上，每个词语生成的概率与上下文相关， $P(w_{1}, w_{2}, ... , w_{n}) = \prod_{i=2}^{n} P(w_(i)|w_(i-1))$

1.3 word2vec 的流程：

输入为上下文单词的one-hot编码，然后乘以共享的输入权重矩阵W，所得到的向量相加求平均作为隐层向量，乘以输出权重矩阵W’，得到的向量经过激活函数的处理得到一个V维的概率分布，其中每一维代表的是一个单词，概率最大的是预测出来的中间词。使用梯度下降来更新W和W’。训练完毕后，输入层的每个单词与矩阵W相乘得到的向量就是word embedding. （已知周围词预测中心词）

关于向量与矩阵维度的变化可以看这篇文章的例子。

CBOW模型详解（基于one-hot）_cbow 权重矩阵-CSDN博客