python实现中文文本分类(三）贝叶斯分类器

最新推荐文章于 2022-11-05 13:09:35 发布

野生胡萝卜

最新推荐文章于 2022-11-05 13:09:35 发布

阅读量1.8k

点赞数 6

分类专栏：机器学习学习笔记文章标签：机器学习 python

本文链接：https://blog.csdn.net/weixin_44602176/article/details/115284268

版权

机器学习学习笔记专栏收录该内容

4 篇文章 5 订阅

订阅专栏

中文文本分类的步骤：
1.预处理：去除文本的噪声信息，例如HTML标签、文本格式转换、检测句子边界等。
2.中文分词：使用中文分词器为文本分词，并去除停用词。
3.构建词向量空间：统计文本词频，生成文本的词向量空间。
4.权重策略——TF-IDF方法：使用TF-IDF发现特征词，并抽取为反映文档主题的特征。
5.分类器：使用算法训练分类器。
6.评价分类结果：分类器的测试结果分析。

本文选择朴素贝叶斯算法进行文本分类，测试集随机抽取自文档集合，每个分类取10个文档，过滤掉1kb以下的文档。

先建立测试集的向量空间模型。

1.构建测试集的Bunch对象

# 1.构建测试集的Bunch对象
wordbag_path = "./data/test_word_bag/test_set.dat"  # 分词语料Bunch对象持久化文件路径
seg_path = "./data/jieba/"  # 分词后分类语料库路径
catelist = os.listdir(seg_path)
bunch = Bunch(target_name=[], label=[], filenames=[], contents=[])
bunch.target_name.extend(catelist)  # 将类别信息保存到Bunch对象中
for dir in catelist:
   count = 0
   class_path = seg_path + dir + "/"
   file_list = os.listdir(class_path)
   for file_path in file_list:
       count += 1
       fullname = class_path + file_path
       bunch.label.append(dir)  # 保存当前文件的分类标签
       bunch.filenames.append(fullname)  # 保存当前文件的文件路径
       bunch.contents.append(readfile(fullname).strip())  # 保存文件词向量
       if count >= 10:
           break
# Bunch对象持久化
# 将数据以对象的形式保存，python提供了pickle模块支持对象的读写
file_obj = open(wordbag_path, 'wb')
pickle.dump(bunch, file_obj)
file_obj.close()
print("构建文本对象结束")

2.构建测试集的词袋

# 读取停用词表
stopword_path = "./data/hlt_stop_words.txt"
stpwrdlst = readfile(stopword_path).splitlines()
# 导入分词后的词向量Bunch对象
path = "./data/test_word_bag/test_set.dat"
bunch = readbunchobj(path)
# 构建测试集TF-IDF向量空间
testspace = Bunch(target_name=bunch.target_name, label=bunch.label, filenames=bunch.filenames, tdm=[],
                  vocabulary={})
# 导入训练集的词袋，将测试集产生的词向量映射到训练集词袋的词典中，生成向量空间模型。
trainbunch = readbunchobj("./data/train_word_bag/tfidfspace.dat")
# 使用TfidfVectorizer初始化向量空间模型
vectorize = TfidfVectorizer(stop_words=stpwrdlst, sublinear_tf=True, max_df=0.5, vocabulary=trainbunch.vocabulary)
transformer = TfidfTransformer()
testspace.tdm = vectorize.fit_transform(bunch.contents)
testspace.vocabulary = vectorize.vocabulary_
# 创建词袋的持久化
space_path = "./data/test_word_bag/testspace.dat"
writebunchobj(space_path, testspace)

3.执行贝叶斯算法进行测试文本分类

from sklearn.naive_bayes import MultinomialNB
# 导入训练集向量空间
trainpath = './data/train_word_bag/tfidfspace.dat'
train_set = readbunchobj(trainpath)
# 导入测试集向量空间
testpath = './data/test_word_bag/testspace.dat'
test_set = readbunchobj(testpath)
# 应用朴素贝叶斯算法
# alpha越小，迭代次数越多，精度越高
clf = MultinomialNB(alpha=0.001).fit(train_set.tdm, train_set.label)
# 预测分类结果
predicted = clf.predict(test_set.tdm)
total = len(predicted)
rate = 0
for flabel, file_name, expect_cate in zip(test_set.label, test_set.filenames, predicted):
    if flabel != expect_cate:
        rate += 1
        print(file_name, "实际类别：", flabel, "-->预测类别：", expect_cate)
print("error rate:", float(rate) * 100 / float(total), "%")

常用评估指标：
召回率R：检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率。
准确率P：系统检索到的相关文件/系统所有检索到的文件总数。
F-score: $F_{\beta } =\frac{\left ( \beta ^{2} +1 \right )PR }{\beta ^{2}P+R }$
当 $\beta=1$ 时，就是F1-score。
average参数定义了该指标的计算方法，二分类时average参数默认是binary；多分类时，可选参数有micro、macro、weighted和samples。

from sklearn import metrics
def metrics_result(actual, predict):
    print("精度：{0:.3f}".format(metrics.precision_score(actual, predict,average='micro')))
    print("召回：{0:.3f}".format(metrics.recall_score(actual, predict,average='micro')))
    print("f1-score：{0:.3f}".format(metrics.f1_score(actual, predict,average='micro')))

野生胡萝卜

关注

6
点赞
踩
28

收藏

觉得还不错? 一键收藏
1
评论
python实现中文文本分类(三）贝叶斯分类器

中文文本分类的步骤：1.预处理：去除文本的噪声信息，例如HTML标签、文本格式转换、检测句子边界等。2.中文分词：使用中文分词器为文本分词，并去除停用词。3.构建词向量空间：统计文本词频，生成文本的词向量空间。4.权重策略——TF-IDF方法：使用TF-IDF发现特征词，并抽取为反映文档主题的特征。5.分类器：使用算法训练分类器。6.评价分类结果：分类器的测试结果分析。本文选择朴素贝叶斯算法进行文本分类，测试集随机抽取自文档集合，每个分类取10个文档，过滤掉1kb以下的文档。先建立测试集的向
复制链接

扫一扫