jieba库
jieba是中文分词第三方库。
安装
cmd命令行
pip install jieba
三种模式:
- 精确模式:把文本精确切分开,不存在冗余单词,可精确还原。
- 全模式:把文本中所有可能的词语都扫描出来,有冗余,组合后可能不是源文本。
- 搜索引擎模式:在精确模式的基础上,对长词再次切分。
常用函数
jieba.lcut(s) #精确模式,返回一个列表类型的分词结果
>>>jieba.lcut("我爱中国")
['我','爱','中国']
jieba.lcut(s,cut_all=True) #全模式,返回一个列表类型的分词结果,存在冗余
>>>jieba.lcut("我爱中国",cut_all=True)
['我','我爱','爱','中国']
jieba.lcut_for_search(s) #搜索引擎模式,返回一个列表类型的分词结果,存在冗余
>>>jieba.lcut_for_search("我爱中华人民共和国")
['我','爱','中华','华人','人民','共和','共和国','中华人民共和国']
jieba.add_word(w) #向分词词典增加新词w