python中文分词模块jieba的使用

最新推荐文章于 2024-05-03 03:27:47 发布

VIP文章 xingyan999

最新推荐文章于 2024-05-03 03:27:47 发布

阅读量1.6k

点赞数 1

分类专栏：数据分析文章标签：自然语言处理

本文链接：https://blog.csdn.net/xingyan999/article/details/117784932

版权

import jieba
jieba.setLogLevel(jieba.logging.INFO)
import jieba.analyse

# 支持四种分词模式

# 1、使用paddle模式，利用PaddlePaddle深度学习框架，训练序列标注（双向GRU）网络模型实现分词

seg_list = jieba.cut("我来到北京清华大学",use_paddle=True)
print("paddle模式: " + '/'.join(seg_list))

得到结果：

paddle模式: 我/来到/北京清华大学

# 2、全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式: " + "/ ".join(seg_list))

得到结果：

全模式: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

# 3、精确模式，试图将句子最精确地切开，适合文本分析

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精确模式: " + "/ ".join(seg_list))

得到结果：

精确模式: 我/ 来到/ 北京/ 清华大学

最低0.47元/天解锁文章

优惠劵

xingyan999

关注关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
2
评论
python中文分词模块jieba的使用

import jiebajieba.setLogLevel(jieba.logging.INFO)import jieba.analyse
复制链接

扫一扫

专栏目录

浅谈python jieba分词模块的基本用法

12-23

jieba（结巴）是一个强大的分词库，完美支持中文分词，本文对其基本用法做一个简要总结。特点支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典 MIT 授权协议安装jieba pip install jieba 简单用法结巴分词分为三种模式：精确模式（默认）、全模式和搜索引擎模式，下面对这三种模式分别举例介绍：精确模式 impo

python中文分词,使用结巴分词对python进行分词(实例讲解)

12-24

在采集美女站时，需要对关键词进行分词，最终采用的是python的结巴分词方法。 中文分词是中文文本处理的一个基础性工作，结巴分词利用进行中文分词。其基本实现原理有三点： 1.基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG) 2.采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 3.对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法安装（Linux环境）下载工具包，解压后进入目录下，运行：python setup.py install 模式 1.默认模式，试图将句子最精确地切开，适合文本分析 2.全模式，

2 条评论您还未登录，请先登录后发表或查看评论

中文分词工具jieba：代码之分词、词性标注、关键词提取与两个问题一个注意。问题一：安装jieba库成功但导入失败，问题二：paddle模式使用不了。注意：关闭paddle模式的控制台信息提示

zhiaidaidai的博客

07-11

1059

再次打开命令行输入pip install jieba，提示已经成功安装，记下路径后找到2个文件夹“jieba”和“jieba-0.42.1.dist-info”。将这两个文件夹放到我们工程文件的.py文件的同一目录下。1、去paddle官网复制pip代码（如下），在pycharm的终端运行。

jieba在使用中的问题

Louiewangt的博客

12-26

2314

在使用过程中遇到了几个问题：提示：运行结果在你的demo文件夹里，不要呆呆地在那儿等，他不会自己打开生成的图片。 1在命名文件的时候文件名不能是：jieba.py。因为你用jieba作为文件名会导致和要使用的模块重名。会出现这样的报错： AttributeError: module 'jieba' has no attribute 'cut' 大家只需要把文件名改一下就好了，这个问题很小但也很容易遇到。 2能够运行出结果，但是会有红色的内容出现，如图：通过查找得到了以下内容： log.

python之jieba分词库

影子

04-16

1781

一、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 -中文文本需要通过分词获得单个的词语 -jieba是优秀的中文分词第三方库，需要额外安装 -jieba库提供三种分词模式，最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba分词依靠中文词库 -利用一个中文词库，确定汉字之间的关联概率 -汉字间概率大的组...

python--jieba库的使用

qq_52360788的博客

11-15

874

# 精准模式 # 将句子最精准的切开，适合文本分析， # jieba.cut() 返回一个可迭代的数据类型（不存在冗余）,此迭代器只能使用一次，类似于集合的迭代器 # jieba.lcut() 精准模式，返回一个列表类型我这里使用精准模式来分词了，最大程度上使得没有冗余 # 封装成为一个函数 def wordStatistics(s:str): ''' :param s: 需要分词的字符串 :return: 返回一个统计好分词的字典 ''' impo.

NLP基础2-jieba中文处理

u014168855的博客

05-06

834

1.基本分词函数与用法 jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode) jieba.cut 方法接受三个输入参数: 需要分词的字符串 cut_all 参数用来控制是否采用全模式 HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search...

python中文分词使用的中文文章

03-10

python中文分词使用的中文文章，里面冯唐的作品，具体网址：https://blog.csdn.net/LEE18254290736/article/details/88374929

python分析小说《从前有座灵剑山》文本

huixiang4的博客

03-21

589

用python分析该小说的分词，词频，词云，小说人物出场次数排序等等。

python使用jieba后出现红字

weixin_44954896的博客

05-14

2116

在使用jieba分词的时候,运行结果是对的,但是出现了一下红字这并不是报错,只是在下载模型,日志打印出来了只要在引入模块后也就是jieba后加上 import jieba jieba.setLogLevel(jieba.logging.INFO) 然后再运行,就不会出现这些红字了 import jieba jieba.setLogLevel(jieba.logging.INFO) s="我吃火锅你吃火锅底料" for i in jieba.cut(s): print(i,end='.

完整的使用jieba分词后生成词云

xingyan999的博客

06-11

866

导入需要的模块 import jieba jieba.setLogLevel(jieba.logging.INFO) # 设置日志等级，使底层日志不要打印出来 import jieba.analyse from wordcloud import WordCloud from wordcloud import ImageColorGenerator import matplotlib.pyplot as plt ...

【Python】最简单词云制作，基于jieba、wordcloud

weixin_62916524的博客

04-20

803

最简单词云制作，基于jieba、wordcloud

大语言模型在专业领域的应用——教育场景下的大语言模型

weixin_43915730的博客

04-28

1151

教育是人类社会进步的基石，对个人和社会发展都至关重要。在教育系统中，大语言模型已经被用于多种教育相关任务，有助于增强教育场景的智能化、自动化和个性化。

视觉语言模型详解

2401_84038983的博客

04-30

900

视觉语言模型是可以同时从图像和文本中学习的多模态模型，其属于生成模型，输入为图像和文本，输出为文本。大视觉语言模型具有良好的零样本能力，泛化能力良好，并且可以处理包括文档、网页等在内的多种类型的图像。其拥有广泛的应用，包括基于图像的聊天、根据指令的图像识别、视觉问答、文档理解、图像描述等。一些视觉语言模型还可以捕获图像中的空间信息，当提示要求其检测或分割特定目标时，这些模型可以输出边界框或分割掩模，有些模型还可以定位不同的目标或回答其相对或绝对位置相关的问题。

Bert基础(二十)--Bert实战：机器阅读理解任务

Andy_shenzl的博客

04-29

1261

也就是Tanoue在原始文本中占一个字符，但是分词后，它占了三个，所以我们在定位答案的起始位置时需要根据一个字符进行定位，但是我们训练处理的时候时使用编码后的input_ids，所以我们就必须把offsets_mapping和原始的内容匹配好才能根据起始位置找到真正的答案。同时答案可能同时出现了多个窗口，因为有数据的重复，而且相似的答案也可能会出现在不同的位置，所以我们后面处理的时候需要进行对比。：北京是中国的首都，它是一座历史悠久的城市，有着丰富的文化遗产和现代化的城市景观。

Build a Large Language Model (From Scratch) 从头开始构建大型语言模型(第二章)学习笔记

Czi.的博客

04-29

1118

LLM需要将文本数据转换为数值向量，称为嵌入，因为它们无法处理原始文本。嵌入将离散数据（如单词或图像）转换为连续向量空间，使它们与神经网络操作兼容。第一步，将原始文本分解为tokens，这些tokens可以是单词或字符。然后，tokens被转换为整数表示形式，称为token IDs。可以添加特殊tokens（例如和）来增强模型的理解并处理各种上下文，例如未知单词或标记(marking)不相关文本之间的边界。

中文NLP一般流程

qq_37977007的博客

04-29

1360

简要介绍了关于中文文本中如何利用自然语言处理训练相应任务的基本步骤。

多模态大语言模型和 Apple 的 MM1

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交