python的jieba模块通俗讲解

最新推荐文章于 2024-02-29 19:00:00 发布

weixin_45683671

最新推荐文章于 2024-02-29 19:00:00 发布

阅读量292

点赞数

文章标签：自然语言处理 nlp python

本文链接：https://blog.csdn.net/weixin_45683671/article/details/104489027

版权

import jieba
把jieba引入进来

seg_list = jieba.cut(‘快使用双截棍’，cut_all=True)
分词列表=在jieba中把这句话用全模式做分词

cut_all=False
用精确模式做分词

print（‘,’.join(seg_list)）
用逗号把分好的词分开

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
在jieba.analyse里提取关键词(文本，关键词数量，权重值，词性)
(这是tf-idf算法提取)

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=(‘ns’, ‘n’, ‘vn’, ‘v’))
这是基于textrank算法提取

import jieba.posseg as pseg
引入划分词性的工具

segword=pseg.cut(‘快使用双截棍’)
把词分了，词性也给我标出来

for word,flag in segword:
print (’%s%s’%(word,flag))
每个在segword里的元素，把它的词和词性都个我打出来。

jieba.load_userdict(file_name)
把自己的词典载入进来
例如，结巴，5（表示词频，可以省略），n（表示词频，可以省略）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_45683671

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python的jieba模块通俗讲解

import jieba
复制链接

扫一扫

python——jieba模块

meet2001的博客

02-26

655

用于中文词语切分的库。切分模式有以下三种：全模式：返回句子中所有可能的词语，可重复使用字。精确模式：将句子精确划分成多个词语，字不能复用。搜索引擎模式：在精确模式的基础上近一步划分长词常用方法 jieba模块中有Tokenizer类型，很多模块方法也是Tokenizer实例的属性。以下仅介绍常用方法（属性），实现切分中文字符串的功能。 jieba还有其他有用的函数，比如load_userd...

python常用函数与模块函数通俗讲解

12-22

print（‘a’，’b‘，’c’）打印多个元素处理 print（‘1+1=’，1+1）前面字符串，后面是计算结果 print(objects, sep=’ ‘, end=’’）打印（内容，用什么分割内容，用什么结尾） a = input(’’) ...

参与评论您还未登录，请先登录后发表或查看评论

Python之jieba模块

cgl_dong的博客

03-30

419

jieba模块分词模块jieba import jieba s="大家好我是一个学生" #False精确匹配 l=jieba.cut(s,cut_all=False) n="我们都是菜鸡" print(".".join(l)) print("\\".join(jieba.cut(n,cut_all=True))) print("/".join(jieba.lcut(n))) #返回列表 pri...

python jieba模块基本命令讲解

黑马程序员广州中心的专栏

01-16

360

1.分词精确模式: import jieba s="fdsfdsfsdfds" s_cut_jq=jieba.cut(s) #可见分词结果返回的是一个生成器,可实现拼接 cut_jq=','.join(s_cut_jq) 全模式: s_cut_qms=jieba.cut(s,cut_all=True) cut_qms=','.join(s_cut_qms) 搜索引擎模式: s_cut_ssyqm...

[python]python jieba 模块

henku449141932的博客

07-24

1127

1）安装 https://pypi.org/project/jieba/#files 解压，执行 Python setup.py install 或将解压后的 jieba 目录放置于当前目录或者 site-packages 目录 2）jieba 特性支持三种分词模式 1、精确模式，试图将句子最精确地切开，适合文本分析； 2 、全模式，把句子中所有的可以成词的词语都扫描出来,...

【Python】jieba分词模块

cml2016的博客

10-19

450

0、前言 jieba库是进行中文分词的利器，根据文档描述，具有以下特点：支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析； ...

Python引用模块和查找模块路径

12-23

对于解释型的语言会更加直观些，比如PHP的.php文件，在Python中就是.py文件可以认为是一个模块。在“模块”之上有“包”，主要是为了方便组织和管理模块。比如C#中编译后的.dll文件（但常常不表述为包Package，而是...

举例讲解Python常用模块

12-31

datetime 日期时间类，主要熟悉API，时区的概念与语言无关。 from datetime import datetime as dt dt.utcnow() # 系统UTC时间 dt.now() # 系统当前时间 dt(2018, 3, 27, 14, 30) # 获得2018-3-27 14:30对应的...

Python模块的加载讲解

12-23

4. **模块重载**：当你修改了模块的源代码后，如果不重新启动Python解释器，原有的模块不会自动更新。为了使改动生效，可以使用`reload()`函数重新加载模块。然而，从Python 3.4开始，`reload()`被移到了`importlib`...

python request 模块详细介绍

12-16

　Requests 是使用 Apache2 Licensed 许可证的基于Python开发的HTTP 库，其在Python内置模块的基础上进行了高度的封装，从而使得Pythoner进行网络请求时，变得美好了许多，使用Requests可以轻而易举的完成浏览器可...

python学习笔记（一）jieba模块初探

af6h32ha6n的博客

03-29

1089

环境说明：windows 7，python27，jieba VERSION 0.38，pycharm2016.1 1.简介：支持中文分词，关键字提取，词性标注,自己管理词库等 2.安装：方法一：开始->搜索cmd->cd到pip.exe目录->输入命令pip install jieba 3.代码片段： import jieba seg = jieba.cut('有关

Python中文分词库——jieba的用法

Python热爱者的博客

04-06

1627

jieba是优秀的中文分词第三方库。由于中文文本之间每个汉字都是连续书写的，我们需要通过特定的手段来获得其中的每个单词，这种手段就叫分词。而jieba是Python计算生态中非常优秀的中文分词第三方库，需要通过安装来使用它。jieba库提供了三种分词模式，但实际上要达到分词效果只要掌握一个函数就足够了，非常的简单有效。安装第三方库需要使用pip工具，在命令行下运行安装命令（不是IDLE）。注意：需要将Python目录和其目录下的Scripts目录加到环境变量中。

Python 数据分析的敲门砖 jieba模块中文分词

最新发布

weixin_54217348的博客

02-29

646

jieba这款分词工具，总体来说还是挺厉害的，我们可以用它来获取并过滤许多对于我们来说比较核心的东西，它就等于数据分析中的一块敲门砖，当然它只是其中的一块而已，哈哈哈

python基础===jieba模块，Python 中文分词组件

weixin_33997389的博客

12-28

102

api参考地址：https://github.com/fxsjy/jieba/blob/master/README.md 安装自行百度基本用法： import jieba #全模式 word = jieba.cut("一人我饮酒醉醉把佳人成双对两眼是独相随我只求他日能双归", cut_all = True) print("Full Mode:" + "/ ".join...

python有一个中文分词工具叫Jieba

洪晓鸿

04-01

843

Jieba是一个中文分词工具

[Python]利用jieba.analyse进行关键词提取

weixin_43847567的博客

03-14

984

1、简单应用代码如下： 1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @File : jieba.analyse.py 4 # @Author: 赵路仓 5 # @Date : 2020/3/14 6 # @Desc : 提取关键字 7 # @Contact : 398333404@qq.com 8...

自然语言处理之词性标注

CSAIWQYB

08-27

4458

词性标注作为NLP领域的一项基本任务，其与分词任务同等重要，是很多任务的基础，比如句法分析，命名实体识别等。命名实体识别在一定程度上也属于标注任务，不过，难度相比一般的词性标注而言，上升了不少。对于词性标注而言，不论是中文还是英文，其难点在于对于不同的语境，词性的多变化；另一方面，随着社会的发展，很多词都会潜移默化的产生额外的词性。相信这些现象，大家都有所感触，也经常遇到这些情况，...

python 使用jieba.analyse提取句子级的关键字

hzp666的博客

11-24

1535

allowPOS是允许的提取的词性，默认为allowPOS=‘ns’, ‘n’, ‘vn’, ‘v’，提取地名、名词、动名词、动词。jieba.analyse.extract_tags()提取关键字的原理是使用TF-IDF算法。文件是我一个旅游项目的数据，从中随机抽取了50行作为备选文字。withWeight 是否返回每个关键词的权重。感觉效果还是不错的，我只提取了名词和地点。，必须是str类型，不能是list。sentence 需要提取的。topK 提取前多少个关键字。

python学习笔记——jieba库入门

小橙子的博客

09-28

2918

一、查找官方文档 1.百度 https://pypi.org/project/jieba/ 2.完整文档：https://github.com/fxsjy/jieba 二、介绍 1.简介 jieba（中文意思是“结巴”）中文文本切分：打造成最好的Python中文分词模块。 2.特点支持四种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础...

Python模块分发指南

- Python模块：在Python编程中，模块是一个包含Python定义和语句的文件。 - 分发：将Python模块打包并提供给他人安装和使用的流程。 - 包：一组相关的Python模块及其相关资源，通常以一个顶级模块名称命名。 2. ...