在中文大语料库上训练word2vector

目录:

  • 1、词向量的作用
  • 2、词向量的训练方法
  • 3、gensim实现大语料库的word2vec

1、词向量的作用

传统使用one-hot表示一个词,用multi-hot表示一个文档。这样做主要的问题是:
1)维度大,独热向量稀疏。
2)损失语义信息,每个词用一个维度进行编号,词之间的余弦相似度都为0

word embedding的优势:
1)分布式的表示(distributional representation),每一维不一定是0或1可以是任意实数,降低维度节省表示空间。
2)包含语义信息,在分布式表示的向量空间中,语义相近的词的向量会比较相近(例如香蕉、苹果属于水果,它们的向量会比较接近)

2、词向量的训练方法

训练的方法常用的有四种奇异值分解、Word2vector、AutoEncoder和glove,这里不介绍具体算法推到,只是简单的介绍一下它们的思想。

1)奇异值分解
基于SVD分解,对term-document矩阵(每个元素为tf-idf)进行奇异值分解,得到term的向量表示和document的向量表示。tfidf是根据全局信息计算的,所以分解方法主要考虑的是全局统计特征。
2)word2vector
有skip-gram和CBOW两种训练方式,word2vec是一种基于局部信息的训练方法,通过单词的上下文信息得到单词的向量表示,两种方法都是通过超参数设定上下文的范围,skip-gram是通过目标单词预测上下文,给定目标单词极大化上下文单词出现的概率,CBOW是通过上下文预测目标单词,给定上下文极大化目标单词出现的概率。都是取模型中部分的隐藏层参数作为单词的向量表示。
3)AutoEncoder
AutoEncoder是一种常用的降维工具,通过对称的全连接神经网络,用输入作为label进行训练达到尽量不损耗原表达的效果,取中间维度低的隐藏层作为压缩后的向量表示。将one-hot的词表示放进去autoencoder,取中间的隐藏层作为词向量。
4)glove
glove是

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值