2021-11-10

gensim的word2vec模型在训练词向量时,由于min_count参数,默认会过滤掉词频低于5的词汇,以保持模型效率。这导致一些低频词没有对应的词向量,因为它们在共现窗口中不足以更新参数。词频低的词汇在自然语言中普遍存在,尤其是在大型语料中,所以最终词表规模小于原始词汇数是正常的。
摘要由CSDN通过智能技术生成

这里写自定义目录标题

欢迎使用Markdown编辑器

为什么使用gensim word2vec训练词向量时存在语料中的某些词没有词向量?:
这是因为word2vec训练过程中会通过参数min_count=5,
过滤掉一部分低频的词,所有词向量数量比语料分词后的数量少。

因为word2vec依靠词的共现(coocurrence)关系来学习词表示,词频会影响词向量更新的好坏,
在gensim实现中默认会筛去词频极低的词(频率低的词没法找到很多共现窗口更新参数)。
自然语言中的词都是呈长尾分布的,因此低频词会非常多,加上训练语料常常包含很多不规范的词,
剩下的词表不大也是很正常。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值