python实现中文文本分类(一)jieba分词

该文详细介绍了中文文本分类的过程,包括预处理、分词、构建词向量空间、使用TF-IDF权重策略、训练分类器及评估结果。重点讲述了jieba分词工具的使用,如默认切分、全切分和搜索引擎切分模式,并提供了分词主程序的代码实现。此外,还展示了如何将分词后的文本信息向量化,构建Bunch对象并持久化保存。整个流程对于中文文本处理和分类具有指导意义。
摘要由CSDN通过智能技术生成

中文文本分类的步骤:
1.预处理:去除文本的噪声信息,例如HTML标签、文本格式转换、检测句子边界等。
2.中文分词:使用中文分词器为文本分词,并去除停用词。
3.构建词向量空间:统计文本词频,生成文本的词向量空间。
4.权重策略——TF-IDF方法:使用TF-IDF发现特征词,并抽取为反映文档主题的特征。
5.分类器:使用算法训练分类器。
6.评价分类结果:分类器的测试结果分析。

中文分词是将一个汉字序列切分成单独的词。jieba是专门使用python语言开发的分词系统,占用资源较小,常识类文档的分词精度较高。
1.直接通过PIP下载使用jieba分词。

pip install jieba -i https://pypi.douban.com/simple/

2.测试jieba样例代码

import jieba

seglist = jieba.cut("小明1995年毕业于清华大学",cut_all=False)
print("默认切分结果为:","/ ".join(seglist))
seglist=jieba.cut("小明1995年毕业于清华大学",cut_all=True)
print("全切分结果为:","/ ".join(seglist))
seglist=jieba.cut_for_search("小明1995年毕业于清华大学")
print("搜索引擎切分结果为:","/ ".join(seglist)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值