jieba库是优秀的中文分词第三方库。
- 中文文本需要通过分词获得单个的词语;
- 需要额外安装;
- jieba库提供三种分词模式,最简单只需掌握一个函数。
jieba分词的三种模式:
- 精确模式。把文本精确地切分开,不存在冗余单词;
- 全模式。把文本中所有可能的词语都扫描出来,有冗余;
- 搜索引擎模式。在精确模式基础上,对长词再次切分。
jieba库常用函数:
jieba库是优秀的中文分词第三方库。
- 中文文本需要通过分词获得单个的词语;
- 需要额外安装;
- jieba库提供三种分词模式,最简单只需掌握一个函数。