jieba 库以及其应用

最新推荐文章于 2023-12-01 20:05:03 发布

可可宋

最新推荐文章于 2023-12-01 20:05:03 发布

阅读量1.1k

点赞数 2

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoyun5555/article/details/105362056

版权

jieba 库：是一个用于NIP,及自然语言分析的工具

（jieba库是一个第三方库，使用前要先进行安装）
如果是windows10 系统在python3命令端输入：.\pip3 install jieba

jieba 库的应用

1精确模式：将句子精确分开，适合文本分析
默认调用为:jieba.lcut(文本）

>>> import jieba
>>> jieba.lcut("我今天真好看")
['我', '今天', '真', '好看']

2.全模式：将句子中全部可以组成的词语扫描出来，但是不能解决歧义
默认调用为：jieba.lcut(文本，cut_all=True)

>>> import jieba
>>> jieba.lcut("我今天真好看",cut_all=True)
['我', '今天', '天真', '真好', '好看']

3.搜索引擎模式：在全模式的基础上，对长词再次分割，提高召回率，适用于搜索引擎分词
默认调用为：jieba.lcut_for_search(文本）

>>> jieba.lcut_for_search("我在河北职业技术学院上高中和初中")
['我', '在', '河北', '职业', '技术', '学院', '上', '高中', '和', '初中']
>>>

jieba 库的其他应用

添加词语

，jieba库之所以能够分词，因为它带有一个词库，可以根据词库进行分词
可以使用jieba.add_word(文本）向jieba库中加入词语
增加新词语后，遇到该词将不会被分词

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
jieba 库以及其应用

jieba 库：是一个用于NIP,及自然语言分析的工具（jieba库是一个第三方库，使用前要先进行安装）如果是windows10 系统在python3命令端输入：.\pip3 install jiebajieba 库的应用1精确模式：将句子精确分开，适合文本分析默认调用为:jieba.lcut(文本）2.全模式：将句子中全部可以组成的词语扫描出来，但是不能解决歧义默认调用为：jieb...
复制链接

扫一扫

可可宋 CSDN认证博客专家 CSDN认证企业博客

码龄5年

135: 原创

23万+: 周排名

93万+: 总排名

38万+: 访问

: 等级

2467: 积分

99: 粉丝

173: 获赞

17: 评论

663: 收藏

私信

关注

热门文章

分类专栏

最新评论

安居客爬虫
MAYA821: 验证码怎么绕过？
在matplotlib中添加数据注释，显示两个折线图
｀KBU: 你好，想问一下，plt.text(a, b+0.05, b, ha='center', va='bottom', fontsize=18, color='blue' )，这里面为什么b要加上0.05呢？
matplotlib绘制出现坐标轴中文乱码的情况怎么处理？
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/7972113, 请多输出高质量博客, 帮助更多的人
ndarray的数据类型
？！84: 所以ndarray是啥呀也不说
安居客爬虫
地推789:

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。