python jieba库的使用

jieba库的使用

jieba库是python中一个重要的第三方中文分词函数库。
我们pycharm是没有安装jieba库的,因此需要我们手动安装jieba库。
安装第三方库的方法已经链接在置顶啦!
接下来我们一起来康康jieba库叭。
如果对一一段英语文本,我们想要提取其中的单词的话可以使用split方法对字符串进行处理即可。如下面的例子

words='I think zmj is an excellent student'
ls=words.split()
print("英文单词为:{}".format(ls))

ps:如果一句话中出现了重复的单词可以使用集合类型去重。
在这里插入图片描述

而如果对于一段中文文本来分割出词语的话就比较困难了。因为汉字之间不想英文单词那样以’,'或者空格分割的,中文有自己独特的分词体系。因此我们需要借助jieba库来完成这样的操作。
下面为大家展示jieba库常用的7个分词函数:
❶jieba.cut(s)
精确模式,返回一个可迭代的数据类型
❷jieba. cut(s,cut_all=Tue)
全模式,输出文本s中所有可能的单词
❸jieba.cut_for_search(s)
搜索引擎模式,适合搜索引擎建立索引的分词结果
❹jieba.lcut(s)
精确模式,返回一个列表类型
❺jeba. lcut(s, cut_all=Tue)
全模式,返回一个列表类型
❻jieba.Icut_for_search(s)
搜索引擎模式,返回一个列表类型
❼jieba.add_word(w)
向分词词典中增加新词w
下面向大家展示一下三个生成列表类型的方法:

import jieba
s="我觉得你今天真的是太棒了"
print("精确模式返回结果为:{}".format(jieba.lcut(s)))
print("全模式返回结果为:{}".format(jieba.lcut(s,cut_all=True)))
print("搜索引擎模式返回结果为:{}".format(jieba.lcut_for_search(s)))

输出结果是:
在这里插入图片描述
你以为这就完了?当然不是,是的话我这句话就没有意义了[手动狗头],伴随结果出现的还有几行红字

Building prefix dict from the default dictionary …
Loading modelfrom cache C:\Users\86155\AppData\Local\Temp\jieba.cache
Loading modelcost 0.854 seconds.
Prefix dict has been built successfully.

首先根据我英语好多级的水平大眼一扫第一句话的default一出现八成是有一些参数什么的没有设置于是采用了默认的值,然后Loading以前打游戏时登录的时候就会有Loading出现,应该是等待进程的加载。最后一行bulit successfully应该是成功创建。综合来看应该是我没有设置参数然后进行分词时采用了默认的分词词库,然后创建默认词库完毕后给你个提示。
此时我目光上移发现了第7个函数就是用来向词典添加新词的,于是我就产生了一个大胆的想法

import jieba
jieba.add_word("我觉得")
jieba.add_word("你今天")
s="我觉得你今天真的是太棒了"
print("精确模式返回结果为:{}".format(jieba.lcut(s)))
print("全模式返回结果为:{}".format(jieba.lcut(s,cut_all=True)))
print("搜索引擎模式返回结果为:{}".format(jieba.lcut_for_search(s)))

结果当然是:
在这里插入图片描述

由此得出结论:这四行红字不是程序报的错,不要看见红字就是报错,无论你是否向词库添加新词都会有这几行提示,它只是一种提示:提示你词库已经构建完毕了,可以开始进行分词了。大家要注意,不要看见红字就是报错,不然跟我一样本想装一B操作一波的,结果惊了Σ(っ °Д °;)っ。
最后大家在使用jieba库时推荐使用生成三个列表的函数,lcut输出的分词较完整而且冗余现象少,luct的True模式会生成所有词,冗余性较大。jieba.Icut_for_search(s)函数执行时先执行精确模式然后再对较长的词做进一步切分,分词获得结果。对于词库无法识别的词可以使用.add_word()方法进行添加词语。
好啦,那我们下次见咯ฅ’ω’♪

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值