word2vec怎么得到词向量?

word2vec有两种模型,CBOW和Skip-gram;前者是通过context(w)[即词w的上下文]的词向量获得w最可能的词(w为各个词的概率,就能得到最可能的词),后者是相反的,通过w获得上下文context(w)。

简单理解即为如下两幅图[1]:

对于CBOW模型,输入的即为词向量,但是词向量怎么来的?

实际上,前面还有一层,如下图[2]:

前一层输入的是每个单词的one-hot编码,然后训练得到的W,也就是输入层到隐藏层权值是词向量;

one-hot应该是这样[0,0,0,1,0,0,0],只有1对应的权值才会作为hidden layers的输入,这个权值也就作为了词向量。

实质上是一个降维的过程,把one-hot降为较低维的向量表示。

(不过其实这个也是简单版本,真实实现的Word2Vec还有改进,详见[3])

reference:

[1] word2vec 中的数学原理详解, https://www.cnblogs.com/peghoty/p/3857839.html

[2] word2vec是如何得到词向量的? crystalajj回答,https://www.zhihu.com/question/44832436

[3] 白话word2vec,https://www.jianshu.com/p/f58c08ae44a6

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值