word2vec 和 doc2vec 相似和区别

本文介绍了word2vec的CBOW和Skip-Gram模型,以及doc2vec在word2vec基础上引入段落向量的概念,包括Distributed Memory (DM) 和 Distributed Bag of Words (DBOW)两种方法。doc2vec在训练和预测过程中考虑了句子的上下文,解决了word2vec中词与词之间孤立的问题,强化了词的关联性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Word2vec 算法

        CBOW 和 Skip-Gram模型

CBOW通过周围词找到当前词,Skip-Gram通过当前词找到周围词,都是使用评估概率找到概率最大的

doc2vec

在word2vec的基础上增加一个段落向量,该模型也有两个方法:Distributed Memory(DM) 和 Distributed Bag of Words(DBOW)

doc2vec 的c-bow与word2vec的c-bow模型的区别
在训练过程中增加了每个句子的id(向量),计算的时候将paragraph vector和word vector累加或者连接起来,作为softmax的输入

在预测过程,给预测句子分配一个新的paragraph id , 重新利用梯度下降训练待预测的句子,待收敛后,即得到待测句子的paragraph vector

PV-DM

doc2vec的skip-gram与word2vec的skip-gram模型的区别 

在doc2vec里,输入都是paragraph vector ,输出是该paragraph 中随机抽样的词

PV-DBOW

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值