2021-11-10

最新推荐文章于 2022-11-18 18:31:15 发布

weixin_45463503

最新推荐文章于 2022-11-18 18:31:15 发布

阅读量195

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45463503/article/details/121245596

版权

gensim的word2vec模型在训练词向量时，由于min_count参数，默认会过滤掉词频低于5的词汇，以保持模型效率。这导致一些低频词没有对应的词向量，因为它们在共现窗口中不足以更新参数。词频低的词汇在自然语言中普遍存在，尤其是在大型语料中，所以最终词表规模小于原始词汇数是正常的。

摘要由CSDN通过智能技术生成

这里写自定义目录标题

欢迎使用Markdown编辑器

欢迎使用Markdown编辑器

为什么使用gensim word2vec训练词向量时存在语料中的某些词没有词向量？：
这是因为word2vec训练过程中会通过参数min_count=5，
过滤掉一部分低频的词，所有词向量数量比语料分词后的数量少。

因为word2vec依靠词的共现（coocurrence）关系来学习词表示，词频会影响词向量更新的好坏，
在gensim实现中默认会筛去词频极低的词（频率低的词没法找到很多共现窗口更新参数）。
自然语言中的词都是呈长尾分布的，因此低频词会非常多，加上训练语料常常包含很多不规范的词，
剩下的词表不大也是很正常。

weixin_45463503

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-11-10

这里写自定义目录标题欢迎使用Markdown编辑器欢迎使用Markdown编辑器为什么使用gensim word2vec训练词向量时存在语料中的某些词没有词向量？：这是因为word2vec训练过程中会通过参数min_count=5，过滤掉一部分低频的词，所有词向量数量比语料分词后的数量少。因为word2vec依靠词的共现（coocurrence）关系来学习词表示，词频会影响词向量更新的好坏，在gensim实现中默认会筛去词频极低的词（频率低的词没法找到很多共现窗口更新参数）。自然语言中的词都是
复制链接

扫一扫

weixin_45463503 CSDN认证博客专家 CSDN认证企业博客

码龄5年

18: 原创

58万+: 周排名

12万+: 总排名

1万+: 访问

: 等级

224: 积分

19: 粉丝

30: 获赞

12: 评论

23: 收藏

私信

关注

热门文章

分类专栏

最新评论

对抗训练-pytorch实现
学渣渣渣渣渣: 应该是这样做的，我在相关文献里看过，他这样的做的方式我还没在文献里看到过
【大模型-- LoRA微调原理及代码演示】
CSDN-Ada助手: 恭喜您发布了第18篇博客！看到您对LoRA微调原理及代码演示的研究，让人感到非常钦佩。希望您能继续保持创作的热情和专注，不断分享您的学习和经验。或许下一步可以考虑深入探讨LoRA微调的应用场景或者与其他模型的比较分析，这样可以为读者提供更多有价值的信息。期待您更多精彩的作品！
【大模型 --- 数据并行与混合精度】
CSDN-Ada助手: 恭喜用户发布了第17篇博客，题为“【大模型 --- 数据并行与混合精度】”。这篇博客内容丰富，深入探讨了数据并行与混合精度的应用，展示了您对于这一领域的深刻理解。希望您能继续保持创作热情，分享更多有价值的内容。或许在接下来的创作中，可以结合实际案例或者应用场景，让读者更好地理解和应用所学知识。期待您的下一篇作品！愿您在创作道路上不断进步，共同成长！
【大模型--- 量化与微调的原理、区别】
CSDN-Ada助手: 恭喜用户发布第16篇博客！标题“大模型--- 量化与微调的原理、区别”听起来非常吸引人。希望您能继续分享关于这方面的知识，让更多人受益。同时，也建议您在下一篇博客中可以探讨一下如何选择适合的大模型进行量化和微调，或者分享一些实际案例。期待您的更多精彩文章！愿您继续保持创作的热情和努力！
【大模型---在线量化和离线量化】
CSDN-Ada助手: 恭喜作者发布了第14篇博客，标题看起来很吸引人！对于在线量化和离线量化的探讨，我觉得非常值得学习。希望作者能继续分享相关领域的知识和经验，或许可以考虑深入研究一些实际案例，为读者提供更具体的参考。谢谢作者的分享，期待下一篇博客的发布！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。