用深度学习来获取文本语义：词向量应用于自然语言处理-CSDN博客

本文链接：https://blog.csdn.net/zkh880loLh3h21AJTH/article/details/78100467

词向量技术通过将词汇映射为实数向量，捕捉词汇间的语义关系。Word2Vec是常用的词向量模型，包括CBOW和Skip-gram两种架构。本文介绍了Word2Vec模型的训练，使用维基百科数据集，对比了CBOW和Skip-gram模型，并使用fastText进行模型训练。最后，通过类比性测试评估了模型的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

词向量是一种把词处理成向量的技术，并且保证向量间的相对相似度和语义相似度是相关的。这个技术是在无监督学习方面最成功的应用之一。传统上，自然语言处理（NLP）系统把词编码成字符串。这种方式是随意确定的，且对于获取词之间可能存在的关系并没有提供有用的信息。词向量是NLP领域的一个替代方案。它把词或短语映射成实数向量，把特征从词汇表大小的高维度空间降低到一个相对低的维度空间。

例如，让我们看看四个词：“woman”（女人）、“man”（男人）、“queen”（女王）和“king”（国王）。我们把它们都向量化，再使用简单的代数运算来发现它们之间的语义相似度。计算向量间的相似度可以采用诸如余弦相似度的方法。当我们把词“woman”的向量减去词“man”后，这个差值的余弦相似度应该和词“queen”的向量减去“king”的向量的差值比较接近（参见图1）。

W(“woman”)−W(“man”) ≃ W(“queen”)−W(“king”)

图1 性别的向量。来源：Lior Shkiller

有很多不同的模型可以被用来把词转换成实数性的向量，包括隐含语义分析（LSA）和隐含狄利克雷分布（LDA）。这些模型背后的思路是：相关的词汇一般都会在相同的文档里同时出现。例如，backpack（背包）、school（学校）、notebook（笔记本）和teacher（教师）一般都会一起出现。而school（学校）、tiger（老虎）、apple（苹果）和basketball（篮球）一般都不会持续同时出现。基于这个相关的词会在相关的文档里出现的基本假设，为了把词转化为向量，LSA会构建一个矩阵。矩阵的行是（语料库或数据里）所有出现过的词，而列则是对应于文档里的一个段落。LSA使用奇异值分解（SVD）的方法，在保存列之间相似性的同时降低矩阵的行数。不过这些模型的主要问题是：在数据量非常大的时候，计算量也非常得大。

为了避免计算和存储大量的数据，我们试图创造一个神经网络模型来计算词间的关系，并提高效率。

Word2Vec

目前最流行的词向量模型是由Mikolov等人在2013年提出的word2vec。这个模型的效果很好，且计算效率有了很大的提升。Mikolov等提出的负采样方法是一个更有效的产生词向量的方法。更多的信息可以在这里找到。

这一模型可以使用下述两种架构的任一种来生成词的分布：<