二级python——jieba库(必选)

jieba库(“结巴”库)

  • 重要的第三方中文分词函数库
  • 由于中文文本中的单词不是通过空格或者标点符号分割的,中文及类似的语言存在一个重要的分词问题
  • 一个利用了中文词库,将带分的词与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组

jieba库的三种分词模式

  • 精确模式:适合文本分析,冗余度较低
  • 全模式:句子中所有可能的词都分出来,速度很快,但不能解决起义问题,冗余度最高
  • 搜索引擎模式:在精确模式的基础上,将长词再分

精确模式:jieba.lcut()

最常用的中文分词函数

>>> import jieba
>>> jieba.lcut("全国计算机等级考试")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\hy\AppData\Local\Temp\jieba.cache
Loading model cost 1.007 seconds.
Prefix dict has been built successfully.
['全国', '计算机', '等级', '考试']

搜索引擎模式:jieba.lcut_for_search()

先进行精确模式,再进行长词切分

>>> jieba.lcut_for_search("全国计算机等级考试")
['全国', '计算', '算机', '计算机', '等级', '考试']

全模式:jieba.lcut(s, cut_all=True)

>>> jieba.lcut("全国计算机等级考试", cut_all=True)
['全国', '国计', '计算', '计算机', '算机', '等级', '考试']

实在没想好,就采用搜索引擎模式,冗余度中等

jieba.add_word()

用来向jieba词库添加新的单词

>>> jieba.lcut("全国计算机等级考试python科目")
['全国', '计算机', '等级', '考试', 'python科目']
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值