中文分词函数库简介
告知
这篇笔记是在学习了Python二级教程(杨文,管德永,王召强主编)(中国海洋大学出版社出版)后写的,内容雷同,如有侵权,请联系我删除,谢谢!!
三种分词模式
全模式 lcut(s,cut_all=True)
将句子中所有的词语列出来,返回一个列表,会产生冗余。
精确模式 lcut(s)
试图将句子最精确地分开,适合用于文本分析
搜索引擎模式 lcut_for_search(s)
在精确模式的基础上,对长词再次切分,适合用与搜索引擎分词
两种功能
分词
自定义中文单词
eg
import jieba
str='学习python的同学们,你们好。'
list1=jieba.lcut