gensim

最新推荐文章于 2023-11-12 09:54:46 发布

丁叔叔

最新推荐文章于 2023-11-12 09:54:46 发布

阅读量181

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43758551/article/details/104038228

版权

NLP 专栏收录该内容

49 篇文章 0 订阅

订阅专栏

API

在这里插入图片描述

参考

https://www.cnblogs.com/pinard/p/7278324.html
https://github.com/ljpzzz/machinelearning/blob/master/natural-language-processing/word2vec.ipynb

https://blog.csdn.net/qq_35273499/article/details/79098689?utm_source=distribute.pc_relevant.none-task

https://blog.csdn.net/sinat_26917383/article/details/69803018#800_420

https://blog.csdn.net/DuinoDu/article/details/76618638

https://gensim.apachecn.org/#/blog/Introduction/README

介绍

Gensim是一个免费的 Python库，旨在从文档中自动提取语义主题，尽可能高效（计算机方面）和 painlessly（人性化）。

Gensim旨在处理原始的非结构化数字文本（纯文本）。

在Gensim的算法，比如Word2Vec，FastText，潜在语义分析（LSI，LSA，see LsiModel），隐含狄利克雷分布（LDA，见LdaModel）等，自动训练文档的躯体内检查统计共生模式发现的文件的语义结构。这些算法是无监督的，这意味着不需要人工输入 - 您只需要一个纯文本文档。

一旦找到这些统计模式，任何纯文本文档（句子，短语，单词…）都可以在新的语义表示中简洁地表达，并查询与其他文档（单词，短语…）的主题相似性。

训练过程

在这里插入图片描述

1 第一步首先要用jieba等类分词软件做个原始语料库出来，这个语料库最好稍微大一些，太小了训练不出来词向量
2 在此基础上很简单的训练出来
3在此基础上进行相似度计算
还有单个词的最相近的词计算
还可以给出某个词的向量 print(model[“田国富”]) 可以给出某个词的向量

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
gensim

https://blog.csdn.net/DuinoDu/article/details/76618638
复制链接

扫一扫

专栏目录

丁叔叔 CSDN认证博客专家 CSDN认证企业博客

码龄6年

322: 原创

24万+: 周排名

161万+: 总排名

31万+: 访问

: 等级

4283: 积分

56: 粉丝

191: 获赞

25: 评论

792: 收藏

私信

关注

热门文章

分类专栏

产品经理 47篇
问答系统
听书 1篇
neo4j 1篇
测试 5篇
postman 1篇
数据挖掘 2篇
前端 5篇
JAVA
linux 2篇
Git教程 4篇
SPARQL 1篇
protege学习 2篇
PRD撰写
Pytroch 12篇
NLP 49篇
深度学习 34篇
机器学习 46篇
sk-learn 11篇
tf 10篇
爬虫 7篇
爬虫实例 7篇
numpy 3篇
pandas 1篇
matplotlib 6篇
python基础 12篇
opencv 1篇
目标检测 2篇
知识图谱 29篇

最新评论

pyltp
不规则大黄鸭: 把语义角色标注结果的解释写清楚了👍
利用tf-idf计算文本相似度
我不是大佬zvj: 在代码里面写绝对路径，你是有点逆天，我复制下来都不好使，还要一个一个改，浪费时间
利用tf-idf计算文本相似度
Domices: 假如所有的文章都不包含这个词，那这个词为什么会被拿来计算呢
matplotlib取消边框
Acowardintheworld: 谢啦就是这个看到好几篇文章，全都是基于子图的
Hmm 和CRF区别
fishguy2022: crf也可以分词啊，词性标注不就是分词吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。