欢迎使用Markdown编辑器
为什么使用gensim word2vec训练词向量时存在语料中的某些词没有词向量?:
这是因为word2vec训练过程中会通过参数min_count=5,
过滤掉一部分低频的词,所有词向量数量比语料分词后的数量少。
因为word2vec依靠词的共现(coocurrence)关系来学习词表示,词频会影响词向量更新的好坏,
在gensim实现中默认会筛去词频极低的词(频率低的词没法找到很多共现窗口更新参数)。
自然语言中的词都是呈长尾分布的,因此低频词会非常多,加上训练语料常常包含很多不规范的词,
剩下的词表不大也是很正常。