人工智能算法小白实战 - 你真的了解词向量吗？

恒生LIGHT云社区

于 2021-07-13 14:20:00 发布

阅读量182

点赞数

文章标签：算法大数据自然语言处理编程语言 python

本文链接：https://blog.csdn.net/weixin_44433834/article/details/122620082

版权

作者：刘算法

来源：恒生LIGHT云社区

你真的了解词向量吗

笔者在上一篇文章《自然语言处理工程化全景图解析》详细阐述了NLP工程化过程中常见的技术环节。这篇文章将基于其中常见的一个技术点：词向量展开讨论，希望对读者今后的学习和实践有一定的指导意义。

文章将从词向量的应用场景，词向量的训练，词向量的加载和代码实践4个环节展开描述。

一、词向量有哪些常见应用

1、自然语言的数学表达

词向量的存在完美的实现了自然语言中文字向数学表达的转变，不同维度的词向量可以充分刻画词语的含义，让词语与词语之间的计算成为可能。以下代码描述了常见词汇的词向量数学表达及词向量维度:

词语的数学表达:

语句的数学表达:

2、相似词与相对词:

既然词语可以通过向量表示，显而易见，词语之间的相似和相对都可以通过数学的方式来实现。以下代码描述了基于词向量的相似词和相对（反）词查找:

计算词语之间的相似度:

查找跟目标词相似的前top n个词：

在一定范围内查找相似词:

在一定范围内查找相对词: (相反词)

3、特征表达

自然语言处理里面提到的词向量维度常见的分布在50-300之间，每个维度的值刻画了该词在该维度上的特征值。当前的技术中，对词向量的计算多是通过轻型神经网络训练所得，神经网络训练的不可解释性也导致词向量在特定维度上的值不可解释。尽管不可解释，词向量依然是自然语言处理中非常重要的特征表达形式。常见的应用场景有：句向量sentence2vec, 文档向量doc2vec，而在深度学习训练过程中，词向量也是非常重要“配料”，如下图所示：

二、如何训练词向量？

从选型的角度，常见的词向量训练模型有word2vec,fasttext,glove等。

Fast text由face book研发，该算法模型以大量语料上的快速分类而著称。针对文本分类任务，该算法模型完全可以不需要提前训练词向量，而直接输出文本分类结果。Word2vec和glove 都是基于语言模型中词共现信息来建模的。

算法原理上，Word2vec具备两种建模方法:CBOW和Skip-Gram，CBOW通过上下文的词语预测中心词；Skip-Gram利用中心词预测上下文的词。Word2vec以预测词为建模目标，却在训练中间阶段生成了词向量，这一“副产品”。Glove 通过构建词汇的共现矩阵统计每个词在上下文本内容中出现的频率，进而构建词向量和共现矩阵的近似关系，最后通过对损失函数的求解学习获得词向量表征。

从训练词向量的性能上看，二则模型差距不大，但glove更容易并行化，因此在处理大语料方面更节省时间。

从实现的代码难度上看，上述的几种方法在实现上都可以通过调用Python包来实现，因此难度不大，重要的是训练过程中应该注意哪些问题，下面结合个人经验提出几点思考：

1 如何选择语料

自然语言处理领域对词的语义理解更多的要依赖于词语所在语言环境，相同的词在不同的语言环境中则表现出不同的语义。针对特定任务场景中样本的特点，需采集跟该任务场景极其相关的样本作为训练语料，并且在保证“样本纯度”的情况下，希望训练语料“尽量多”。比如，需要对新闻类文本实现分类，则需要搜集足够纯度的新闻类文本作为词向量训练语料，而不应采集像人类对话类文本等样本作为训练语料。在语料准备方面，语料“纯度”的考虑应该放在首位，数量放在次位。“纯度”保障模型针对特定问题更加聚焦，“数量”保障词向量表征更具泛化能力。而一些科研机构或公司也会追求大而全的词向量，进而在尽量多的全文语料上做词向量的训练，比如腾讯AI实验室公开的16G词向量文件。

2 如何选择模型

下游任务的不同一定程度上决定我们选择模型的方向。像一般的自然语言处理任务，不涉及深层语言特性理解等复杂任务的情况下，优先选择简单模型，比如word2vec的skip-gram。在满足需求的情况下，训练简单模型可以节省更多的时间和空间开销。对于深层语言特性理解等较为复杂的任务，需要模型学习更多的特征，挖掘深层次的语言含义，则需选择较为复杂的模型训练词向量。

3 如何选择特征维度

业界将词向量的特征维度一般定义在50到300之间不等。针对某个特定的任务场景具体选择多少维度并没有明确的定论，维度的选择更多的依靠算法工程师的经验。结合前人经验和个人实践总结，词向量特征维度选择需要考虑的因素跟模型选择方面有些类似。一般任务下，50到100维度的词向量如果能够满足要求的前提下，优先选择低维度词向量。该种词向量的训练更快，即便下游任务中用到词向量的计算，低维度向量的计算相比高纬度可以节省计算开销。特定复杂任务下，需要选择高维度词向量来支撑，这时的词向量训练更耗时也更消耗资源。

4 如何评价训练词向量的好坏

自然语言处理中的词向量训练一般是一个经典NLP任务中的重要环节，因此对词向量训练的评价不能单纯地评价一个训练任务，而应该结合下游任务一起评价。假如当前任务是分类任务，下游分类任务的性能好坏则可以反映出词向量训练性能的好坏，并指导下一步词向量训练策略。