前言
还是以回答几个问题的形式介绍词向量
一、为什么介绍词向量推理(W2V)?
词向量推理(W2V)的优势是什么?
似乎回答了这个问题就能解释词向量出现的意义和价值。
第一点:前人所使用表示词的方法中全部忽略了上下文或者附近词的信息,都是以单个词的词义来表示单词的。
第二点:LSA过大的词袋,词的部分含义也会消失。
综上所述,W2V解决了不仅可以表示上下文之间的关系而且还能表示更大词袋的向量。
可以捕捉更疯不的目标词含义。
二、如何得到W2V?
既然它如此优秀,应该如何计算才能得到呢?
三、是否有其他更优秀的词向量表示呢?
因为word2vec模型无法收敛,而通过SVD方法得到全局最优解。
GloVe(global vectors of word co-occurrences)是对词贡献的全局变量。
word2vec依赖反向传播来更新表示词嵌入的权重,而神经网络的反向传播效率低于GloVe使用的SVD这种更成熟的优化算法。
GloVe的优点:
- 训练过程更快
- 更有效的利用CPU、内存(可以处理更大规模的文档)
- 更有效的利用数据(对小型语料库有帮助)
- 在相同训练次数的情况下精确率更高
四、补充
1.fastText [中文可以借鉴]
2.gensim
3.word2vec与LSA
LSA的训练速度比word2vec更快,而且在长文档分类和聚类方面,LSA表现更好。
word2vec和GloVe对大型语料库的使用更有效,在回答类比问题等词推理的领域会更精确。
总结
随着历史的发展,出现了不同的词向量表示,并且在准确率、分类、聚类等不同任务上都出现了不同效果的对比。使用时根据现实情况采用合适的方法训练词向量。