【深度学习】NLP基础--词向量（从One-hot到Word2Vec）

DonngZH

已于 2023-02-21 10:05:05 修改

阅读量1.5w

点赞数 17

分类专栏：深度学习文章标签： word2vec 自然语言处理深度学习

于 2022-09-22 20:06:06 首次发布

本文链接：https://blog.csdn.net/weixin_44750512/article/details/126975985

版权

深度学习专栏收录该内容

75 篇文章

订阅专栏

1.什么是词向量

在自然语言处理中，面临的首要问题是如何让模型认识我们的文本信息，比如向模型中输入‘我爱北京天安门’，那模型是如何认识文本的？词，是自然语言处理中基本单位，将数据输入到模型中，尽可能的让模型明白其中的含义，那就面临一个问题：如何表示一个词？

词向量：词向量（Word embedding），又叫Word嵌入式自然语言处理（NLP）中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

具体来讲就是将词映射成向量的形式，将自然语言转换为向量之间的计算。

2.向量表示

在自然语言处理任务中，对于词向量有两种表示方式。第一种：one-hot representation；

第二种：distribution representation。

2-1.什么是ont-hot

one-hot 表示方法是把每个词表示为一个长向量。这个向量的维度是词表大小，向量中只有一个维度的值为1，其余维度为0，这个维度就代表了当前的词。

2-1-1 如何表示

假设用 one-hot对句子进行表示，对句子分词之后，我们可以得到['我‘，’爱‘，’北京‘，’天安门‘]，可以用one hot（独热编码）对单词进行编码。具体为：

“我”可以表示为[1,0,0,0]

"爱"可以表示为[0,1,0,0]

'北京'可以表示为[0,0,1,0]

'天安门'可以表示为[0,0,0,1]

2-2-2 存在问题

通过上述案例我们可以看出，每个单词用一个向量进行编码。用one hot 会存在一下几个问题：

（1）每个向量之间的内积为0，也就是每个向量是互相正交的。原本上下文中存在语义关系的词汇，经过独热编码后，模型无法识别出每个词之间的关系，首先在向量表示层面就失去了原本的语义关系。

（2）维度爆炸。向量的维度和文本中的词语数量相关，例子中的单词数量为4，所以我们的向量表示为1*4。但是在自然语言处理中，往往需要大量的数据，如果词库中存在10万的单词量，那每个单词的向量就表现为10万维。向量的维度过高，会导致模型的训练难度增加，难以收敛。

（3）向量稀疏。通过例子我们可以发现，使用one hot 时，除了当前单词位置的值为1之外，其余位置的值都为0，这样就会带来向量值稀疏的问题，其实还是向量之间（单词）之间没有语义上的联系。

2-2.什么是分布式表示（distribution）

词嵌入（word embedding）将词表示为一种分布式表现的形式。分布式表示将词转化为一个定长（可指定）、稠密并且互相存在语义关系的向量。此处的存在语义关系可以理解为：分布相似的词，是具有相同的语义的。

2-2-1 如何表示

以Word2Vec为例，介绍分布式表示。

Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处理（NLP）中。Word2Vec通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射，将单词从原先所属的空间映射到新的多维空间中，也就是把原先词所在空间嵌入到一个新的空间中去。man和woman属于语义上很相近的词，当这两个词映射到新的空间后，得到的嵌入向量（embedded vector）就很接近。如图为woman和man的向量相似度。