贪心NLP——jieba分词、停用词过滤、词的标准化,词袋模型

本文介绍了使用jieba进行中文分词,详细讲解了停用词过滤的两种方法,词的标准化过程,并探讨了如何将文本转换成词袋向量,以备后续模型使用。
摘要由CSDN通过智能技术生成

基于结巴(jieba)的分词。

Jieba是最常用的中文分词工具

import jieba

set_list=jieba.cut('中南财经政法大学在茶山刘',cut_all=False)
print('/'.join(set_list))

#jieba里没有茶山刘这个词,把它加进去
jieba.add_word('茶山刘')
set_list=jieba.cut('中南财经政法大学在茶山刘',cut_all=False)
print('/'.join(set_list))

运行结果:

 

停用词过滤

出现频率特别高的和频率特别低的词对于文本分析帮助不大,一般在预处理阶段会过滤掉。 在英文里,经典的停用词为 “The”, "an"....

方法一:自己定义停用词

# 方法1: 自己建立一个停用词词典
stop_words = ["the", "an", "is", "there"]
# 在使用时: 假设 word_list包含了文本里的单词
word_list = ["we", "are",
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值