文章目录
jieba库(“结巴”库)
- 重要的第三方中文分词函数库
- 由于中文文本中的单词不是通过空格或者标点符号分割的,中文及类似的语言存在一个重要的分词问题
- 一个利用了中文词库,将带分的词与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组
jieba库的三种分词模式
- 精确模式:适合文本分析,冗余度较低
- 全模式:句子中所有可能的词都分出来,速度很快,但不能解决起义问题,冗余度最高
- 搜索引擎模式:在精确模式的基础上,将长词再分
精确模式:jieba.lcut()
最常用的中文分词函数
>>> import jieba
>>> jieba.lcut("全国计算机等级考试")
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\hy\AppData\Local\Temp\jieba.cache
Loading model cost 1.007 seconds.
Prefix dict has been built successfully.
['全国', '计算机', '等级', '考试']
搜索引擎模式:jieba.lcut_for_search()
先进行精确模式,再进行长词切分
>>> jieba.lcut_for_search("全国计算机等级考试")
['全国', '计算', '算机', '计算机', '等级', '考试']
全模式:jieba.lcut(s, cut_all=True)
>>> jieba.lcut("全国计算机等级考试", cut_all=True)
['全国', '国计', '计算', '计算机', '算机', '等级', '考试']
实在没想好,就采用搜索引擎模式,冗余度中等
jieba.add_word()
用来向jieba词库添加新的单词
>>> jieba.lcut("全国计算机等级考试python科目")
['全国', '计算机', '等级', '考试', 'python科目']