python --jieba 分词

最新推荐文章于 2024-05-27 23:22:41 发布

好好学习的顾顾

最新推荐文章于 2024-05-27 23:22:41 发布

阅读量5.9k

点赞数 8

分类专栏： python 二级备考文章标签： python

本文链接：https://blog.csdn.net/weixin_62816287/article/details/124024859

版权

jieba库是什么jieba库中文分词第三方库，中文文本需要通过分词获得单个的词语。jieba库的原理：利用中文字库，确定汉字之间的关联概率，汉字件概率大的组成词组，形成分词结果，还可以添加自定义的词组。jieba库的使用jieba库分词有3种1.精确模式：一段文本精确地切分成若干个中文单词，若干个中文单词经过组合，精确还原原先地文本，不存在冗余单词。2.全模式：一段文本种所有可能出现地词语都扫描出来，一段文本从不同地角度切分成不同地词语，分词后地信息组合会有冗余，不在是原来的文本。

摘要由CSDN通过智能技术生成

jieba库是什么

jieba库中文分词第三方库，中文文本需要通过分词获得单个的词语。

jieba库的原理：利用中文字库，确定汉字之间的关联概率，汉字件概率大的组成词组，形成分词结果，还可以添加自定义的词组。

jieba库的使用

jieba库分词有3种

1.精确模式：一段文本精确地切分成若干个中文单词，若干个中文单词经过组合，精确还原原先地文本，不存在冗余单词。

2.全模式：一段文本种所有可能出现地词语都扫描出来，一段文本从不同地角度切分成不同地词语，分词后地信息组合会有冗余，不在是原来的文本。

3.搜索引擎模式：精确模式基础上，对发现长的词语，再次切分，进而合适搜索殷勤对短词语的索引和搜索，会有冗余。

jieba库常用函数类型：输入什么类型（字符串，列表）输出类型：字符串，列表、

精确模式

import jieba
s='当我开始爱自己的时候，不会在为别人的眼光而怯懦，或者产生自我怀疑的时候，将会是我成为新的自己。'
ls=jieba.lcut(s)
print(ls)
结果
['当', '我', '开始', '爱', '自己', '的', '时候', '，&

最低0.47元/天解锁文章

好好学习的顾顾

关注

8
点赞
踩
33

收藏

觉得还不错? 一键收藏
0
评论
python --jieba 分词

jieba库是什么jieba库中文分词第三方库，中文文本需要通过分词获得单个的词语。jieba库的原理：利用中文字库，确定汉字之间的关联概率，汉字件概率大的组成词组，形成分词结果，还可以添加自定义的词组。jieba库的使用jieba库分词有3种1.精确模式：一段文本精确地切分成若干个中文单词，若干个中文单词经过组合，精确还原原先地文本，不存在冗余单词。2.全模式：一段文本种所有可能出现地词语都扫描出来，一段文本从不同地角度切分成不同地词语，分词后地信息组合会有冗余，不在是原来的文本。
复制链接

扫一扫

专栏目录