二级python——jieba库（必选）

最新推荐文章于 2023-04-23 13:11:22 发布

我是小杨我就这样

最新推荐文章于 2023-04-23 13:11:22 发布

阅读量2.3k

点赞数 4

分类专栏：计算机二级python等级考试

本文链接：https://blog.csdn.net/weixin_44478378/article/details/104588020

版权

计算机二级python等级考试专栏收录该内容

42 篇文章 62 订阅

订阅专栏

文章目录

jieba库（“结巴”库）
jieba库的三种分词模式

jieba库（“结巴”库）

重要的第三方中文分词函数库
由于中文文本中的单词不是通过空格或者标点符号分割的，中文及类似的语言存在一个重要的分词问题
一个利用了中文词库，将带分的词与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组

jieba库的三种分词模式

精确模式：适合文本分析，冗余度较低
全模式：句子中所有可能的词都分出来，速度很快，但不能解决起义问题，冗余度最高
搜索引擎模式：在精确模式的基础上，将长词再分

精确模式：jieba.lcut()

最常用的中文分词函数

>>> import jieba
>>> jieba.lcut("全国计算机等级考试")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\hy\AppData\Local\Temp\jieba.cache
Loading model cost 1.007 seconds.
Prefix dict has been built successfully.
['全国', '计算机', '等级', '考试']

搜索引擎模式：jieba.lcut_for_search()

先进行精确模式，再进行长词切分

>>> jieba.lcut_for_search("全国计算机等级考试")
['全国', '计算', '算机', '计算机', '等级', '考试']

全模式：jieba.lcut(s, cut_all=True)

>>> jieba.lcut("全国计算机等级考试", cut_all=True)
['全国', '国计', '计算', '计算机', '算机', '等级', '考试']

实在没想好，就采用搜索引擎模式，冗余度中等

jieba.add_word()

用来向jieba词库添加新的单词

>>> jieba.lcut("全国计算机等级考试python科目")
['全国', '计算机', '等级', '考试', 'python科目']

我是小杨我就这样

关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录