中文文本分类的步骤:
1.预处理:去除文本的噪声信息,例如HTML标签、文本格式转换、检测句子边界等。
2.中文分词:使用中文分词器为文本分词,并去除停用词。
3.构建词向量空间:统计文本词频,生成文本的词向量空间。
4.权重策略——TF-IDF方法:使用TF-IDF发现特征词,并抽取为反映文档主题的特征。
5.分类器:使用算法训练分类器。
6.评价分类结果:分类器的测试结果分析。
中文分词是将一个汉字序列切分成单独的词。jieba是专门使用python语言开发的分词系统,占用资源较小,常识类文档的分词精度较高。
1.直接通过PIP下载使用jieba分词。
pip install jieba -i https://pypi.douban.com/simple/
2.测试jieba样例代码
import jieba
seglist = jieba.cut("小明1995年毕业于清华大学",cut_all=False)
print("默认切分结果为:","/ ".join(seglist))
seglist=jieba.cut("小明1995年毕业于清华大学",cut_all=True)
print("全切分结果为:","/ ".join(seglist))
seglist=jieba.cut_for_search("小明1995年毕业于清华大学")
print("搜索引擎切分结果为:","/ ".join(seglist)