贪心NLP——jieba分词、停用词过滤、词的标准化，词袋模型

最新推荐文章于 2024-03-22 12:59:16 发布

超级圈

最新推荐文章于 2024-03-22 12:59:16 发布

阅读量2.3k

点赞数 1

分类专栏： NLP

本文链接：https://blog.csdn.net/weixin_44953364/article/details/100747111

版权

本文介绍了使用jieba进行中文分词，详细讲解了停用词过滤的两种方法，词的标准化过程，并探讨了如何将文本转换成词袋向量，以备后续模型使用。

摘要由CSDN通过智能技术生成

基于结巴（jieba）的分词。

Jieba是最常用的中文分词工具

import jieba

set_list=jieba.cut('中南财经政法大学在茶山刘',cut_all=False)
print('/'.join(set_list))

#jieba里没有茶山刘这个词，把它加进去
jieba.add_word('茶山刘')
set_list=jieba.cut('中南财经政法大学在茶山刘',cut_all=False)
print('/'.join(set_list))

运行结果：

停用词过滤

出现频率特别高的和频率特别低的词对于文本分析帮助不大，一般在预处理阶段会过滤掉。在英文里，经典的停用词为 “The”, "an"....

方法一：自己定义停用词

# 方法1： 自己建立一个停用词词典
stop_words = ["the", "an", "is", "there"]
# 在使用时： 假设 word_list包含了文本里的单词
word_list = ["we", "are",

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

超级圈

关注关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

jieba分词词典和停用词

03-28

利用jieba分词进行文本的处理这里面是jieba分词所需要的词典和停用词

jieba 停用词表_使用 jieba 对文本进行分词

weixin_39625975的博客

12-03

8801

现在项目上有个需求：对根本原因进行预测。也就是说，给定根本原因以及其所对应的标签，通过机器学习算法对以后输入的根本原因进行自动化归类(或者说智能提示当前输入的根本原因属于哪个类别的)图1.数据库中的格式我想既然需要用到机器学习，肯定需要将数据清洗。所以第一步我先把根本原因字段进行分词处理，然后再将分好的词对应的类别转换成机器学习所需的格式，进行训练、预测处理。So 今天先把“根本原因”字段进行分词...

参与评论您还未登录，请先登录后发表或查看评论

结巴分词5--关键词抽取

weixin_33972649的博客

12-14

1974

作者：zhbzz2007 出处：http://www.cnblogs.com/zhbzz2007 欢迎转载，也请保留这段声明。谢谢！ 1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期，当时还不支持全文搜索的时候，关键词就可以作为搜索这篇论文的词语。因此，目前依然可以在论文中看到关键词这一项。除了这些，关键词还可以在文本聚类、分类、自动摘要等领域...

使用jieba维护自定义词、停用词表

daizongxue的博客

11-23

2万+

对于文本处理来说，好的分词结果，是一切开始的基础。下面结合我的使用，简要说说使用jieba分词，如何添加、删除自定义词，以及使用停用词表，方便自己以后查阅。1 维护自定义词1.1 添加自定义词方法一：import jieba jieba.add_word("自定义词1") jieba.add_word("自定义词2")方法二：方法一需要我们手动一个个添加，当自定义词较多时，我们可以用下面的方法：im

结巴jieba分词中文分词停用词表2000条数据

08-03

结巴中文分词停用表，整合百度分词、哈工大等停用词表2000余条数据即拿即用，效果好，提升分词速度准确率。

使用jieba库进行移除停用词

AI_dataloads的博客

09-27

3154

text = "这是一个带有一些停用词的例句，我们想要将它们移除。读入-->分词-->导入停词表-->过滤-->输出。

jieba分词工具包下载

11-16

jieba分词工具是Python中广泛使用的中文分词库，尤其在自然语言处理（NLP）领域中扮演着重要角色。这个工具包提供了一个高效、易用的接口，能够对中文文本进行精确、全模式和搜索引擎模式的分词。jieba库支持动态...

NLP--分词、拼写纠错、停用词过滤、词的标准化、词袋向量

weixin_45422335的博客

04-20

1138

拼写纠错、分词编辑距离的计算：编辑距离可以用来计算两个字符串的相似度，它的应用场景很多，其中之一是拼写纠正（spell correction）。编辑距离的定义是给定两个字符串str1和str2, 我们要计算通过最少多少代价cost可以把str1转换成str2. 举个例子：输入: str1 = “geek”, str2 = “gesek” 输出: 1 插入 's’即可以把str1转换成s...

jieba java_结巴分词 java 高性能实现，优雅易用的 api 设计，性能优于 huaban jieba 分词...

weixin_32866779的博客

02-19

668

SegmentSegment 是基于结巴分词词库实现的更加灵活，高性能的 java 分词实现。创作目的分词是做 NLP 相关工作，非常基础的一项功能。jieba-analysis 作为一款非常受欢迎的分词实现，个人实现的 opencc4j 之前一直使用其作为分词。但是随着对分词的了解，发现结巴分词对于一些配置上不够灵活。(1)有很多功能无法指定关闭，比如 HMM 对于繁简体转换是无用的，因为繁体词...

nlp基础—10.结巴分词的应用及底层原理剖析

柳杰的博客

07-07

1871

文章目录引言一、HMM模型二、中文分词方法1.基于规则2. 基于知识理解3. 基于统计三、Jieba分词原理引言 结巴分词用到的核心算法模型是隐马尔可夫模型。一、HMM模型隐马尔可夫模型(Hidden Markov Model，HMM)是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。我们下面举一个例子来理解HMM模型。如果想详细了解HMM模型的推导，可以参考：nlp基础—7.隐马尔可夫

结巴分词、词性标注以及停用词过滤

10-31

因为比赛需要用到结巴分词，所以写了一个关于结巴分词、词性标注以及停用词过滤的python程序。

中文停止词库

12-25

特整理中文停止词如下，方便开发。中文文本分词中先参考了官方给出的示例，官方给出的示例主要是对一条文本进行全分词和精确分词。

jieba+百度分词词库

07-13

jieba与百度的分词词库整合，加入了少量汽车行业的词语，剔除重复项之后剩余630406个词语。

最全中文停用词表

11-05

结合多个停用词表收藏了2000+停用词，满足日常自然语言分词处理

jieba停用词表_数据分析之 jieba 库的运用

weixin_39524048的博客

12-03

2025

Python 数据分析之 jieba 库的运用《斗破苍穹》可谓玄幻小说的巅峰之作，曾经痴迷到彻夜看小说，回不到的过去，等不到的未来！今天就利用python的jieba库，制作《斗破苍穹》词云。步骤jieba分词首先，通过pip3 install jieba安装jieba库，随后在网上下载《斗破苍穹》小说及停用词表。代码如下：import 注意：大家运行程序可能会报错，是编码问题，我们这时需打开下载...

jieba分词的停用词问题

子妮姐的技术世界

01-19

6927

去掉停用词一般要自己写个去除的函数(def....)，一般的思想是先分好词，然后看看分的词在不在停用词表中，在就remove，最后呈现的结果就是去掉停用词的分词结果。后来找到一个jieba.analyse.set_stop_words(filename)，以为可以直接设置一下停用词文件分词时就自动给我去除了，没想到分词的结果根本没有任何改变！找了半天资料，又看了下jieba包里analys...

Python教程95：jieba去掉停用词+词频统计+tokenize分词位置的示例用法