在中文大语料库上训练word2vector

最新推荐文章于 2021-07-28 15:50:35 发布

xiayto

最新推荐文章于 2021-07-28 15:50:35 发布

阅读量4.2k

点赞数

分类专栏：机器学习实战机器学习 nlp

本文链接：https://blog.csdn.net/xiayto/article/details/81206956

版权

1、词向量的作用
2、词向量的训练方法
3、gensim实现大语料库的word2vec

1、词向量的作用

传统使用one-hot表示一个词，用multi-hot表示一个文档。这样做主要的问题是：
1）维度大，独热向量稀疏。
2）损失语义信息，每个词用一个维度进行编号，词之间的余弦相似度都为0

word embedding的优势：
1）分布式的表示（distributional representation），每一维不一定是0或1可以是任意实数，降低维度节省表示空间。
2）包含语义信息，在分布式表示的向量空间中，语义相近的词的向量会比较相近（例如香蕉、苹果属于水果，它们的向量会比较接近）

2、词向量的训练方法

训练的方法常用的有四种奇异值分解、Word2vector、AutoEncoder和glove，这里不介绍具体算法推到，只是简单的介绍一下它们的思想。

1）奇异值分解
基于SVD分解，对term-document矩阵（每个元素为tf-idf）进行奇异值分解，得到term的向量表示和document的向量表示。tfidf是根据全局信息计算的，所以分解方法主要考虑的是全局统计特征。
2）word2vector
有skip-gram和CBOW两种训练方式，word2vec是一种基于局部信息的训练方法，通过单词的上下文信息得到单词的向量表示，两种方法都是通过超参数设定上下文的范围，skip-gram是通过目标单词预测上下文，给定目标单词极大化上下文单词出现的概率，CBOW是通过上下文预测目标单词，给定上下文极大化目标单词出现的概率。都是取模型中部分的隐藏层参数作为单词的向量表示。
3）AutoEncoder
AutoEncoder是一种常用的降维工具，通过对称的全连接神经网络，用输入作为label进行训练达到尽量不损耗原表达的效果，取中间维度低的隐藏层作为压缩后的向量表示。将one-hot的词表示放进去autoencoder，取中间的隐藏层作为词向量。
4）glove
glove是