Word2vec 算法
CBOW 和 Skip-Gram模型
CBOW通过周围词找到当前词,Skip-Gram通过当前词找到周围词,都是使用评估概率找到概率最大的
doc2vec
在word2vec的基础上增加一个段落向量,该模型也有两个方法:Distributed Memory(DM) 和 Distributed Bag of Words(DBOW)
doc2vec 的c-bow与word2vec的c-bow模型的区别
在训练过程中增加了每个句子的id(向量),计算的时候将paragraph vector和word vector累加或者连接起来,作为softmax的输入
在预测过程,给预测句子分配一个新的paragraph id , 重新利用梯度下降训练待预测的句子,待收敛后,即得到待测句子的paragraph vector
PV-DM
doc2vec的skip-gram与word2vec的skip-gram模型的区别
在doc2vec里,输入都是paragraph vector ,输出是该paragraph 中随机抽样的词
PV-DBOW