基于python的NLP入门——jieba库的使用

最新推荐文章于 2024-07-20 15:55:48 发布

魍悼、、

最新推荐文章于 2024-07-20 15:55:48 发布

阅读量1.6k

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_44853181/article/details/108023297

版权

本文介绍了jieba库在Python中的应用，包括jieba库的基本概念、优点、安装方法，详细讲解了如何使用jieba进行分词、添加自定义字典、关键词抽取（基于TF-IDF和TextRank）以及词性标注。示例代码丰富，适合Python NLP初学者。

摘要由CSDN通过智能技术生成

jieba 是一个python实现的分词库，对中文有着很强大的分词能力。

1. 支持三种分词模式
   - 精确模式，试图将句子最精确地切开，不存在冗余单词，适合文本分析；
   - 全模式，试图列出所有可能的单词，速度非常快，但是不能解决歧义，存在冗余；
   - 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

全自动安装

pip install jieba # 在目前所激活的环境下安装
[环境名] -m pip install jieba # 不需切换环境
pip install -i https://pypi.doubanio.com/simple/ jieba

半自动安装：先下载 http://pypi.python.org/pypi/jieba/ ，解压后运行
```
python setup.py install
```
手动安装：将 jieba 目录放置于当前目录或者 site-packages 目录
通过 import jieba 来引用

函数	功能	参数说明
jieba.cut(s)	精确模式，返回一个可迭代的数据类型	s：字符串
jieba.cut(s, cut_all = True)	全模式，返回一个可迭代的数据类型	s：字符串；cut_all = True/False：全模式/精确模式，默认为False
jieba.cut_for_search(s)	搜索引擎模式，返回一个可迭代的数据类型	s：字符串
jieba.lcut(s)	精确模式，返回一个数据列表类型	s：字符串
jieba.lcut(s, cut_all = True)	全模式，返回一个数据列表类型	s：字符串；cut_all = True/False：全模式/精确模式，默认为False
jieba.lcut_for_search(s)	搜索引擎模式，返回一个数据列表类型	s：字符串

代码示例：

import jieba
s = "中华人民共和国是一个伟大的国家"
r1 = jieba.cut(s)
print("【精确模式】：",type(r1),"\t", " / ".join(r1))

r2 = jieba.cut(s,cut_all=True)
print("【全模式】："

关注