python系列（亲测有效）：数据分析之jieba分词使用详解

坦笑&&life

已于 2024-02-03 16:09:02 修改

阅读量2.8k

点赞数 27

分类专栏： # python 文章标签： python 数据分析 easyui

于 2024-01-16 17:37:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_54626591/article/details/135630097

版权

python 专栏收录该内容

328 篇文章 ¥99.90 ¥299.90

订阅专栏

数据分析之jieba分词使用详解

1 四种模式分词
2 自定义词典分词
3 词性标注
4 关键词提取
- 4.1 基于 TF-IDF 算法的关键词抽取
- 4.2 基于 TextRank 算法的关键词抽取

在所有人类语言中，一句话、一段文本、一篇文章都是有一个个的词组成的。词是包含独立意义的最小文本单元，将长文本拆分成单个独立的词汇的过程叫做分词。分词之后，文本原本的语义将被拆分到在更加精细化的各个独立词汇中，词汇的结构比长文本简单，对于计算机而言，更容易理解和分析，所以，分词往往是自然语言处理的第一步。

对于英文文本，句子中的词汇可以通过空格很容易得进行划分，但是在我们中文中则不然，没有明显的划分标志，所以需要通过专门的方法（算法）进行分词。在Python中，有多种库实现了各种方法支持中文分词，例如：jieba、hanlp、pkuseg等。在本篇中，先来说说jieba分词。

1 四种模式分词

（1）精确模式：

试图将句子最精确地切开，适合文本分析。精确分词模式对应的方法是jieba.cut，该方法接受四个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式，值为False时表示采用精确分词模式；HMM 参数用来控制是否使用 HMM 模型。

（2）全模式：

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

坦笑&&life 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。