最近在刷python二级的题库,发现在简单应用题和综合应用题中jieba库出现频率最高的就是分词和词频统计
1.分词,在jieba库中,分词有三种模式:精确模式,全模式与搜索引擎模式
(1)cut()全模式
把句子中所有可以成词的词语都扫描出来,速度非常快,但是不可以解决歧义,也就是会有重复的字,例如
![](https://img-blog.csdnimg.cn/img_convert/9738ac90e040a17debe29430cbf7bcac.png)
(2)lcut()精确模式、
将句子最精确地分开,适合文本分析,返回结果是列表类型
![](https://img-blog.csdnimg.cn/img_convert/329976df851e8aebda165a56040181eb.png)
把句子中所有可以成词的词语都扫描出来,速度非常快,但是不可以解决歧义,也就是会有重复的字,例如
将句子最精确地分开,适合文本分析,返回结果是列表类型