使用sklearn+jieba完成一个文档分类器

本文介绍如何使用sklearn和jieba完成一个文档分类器,涉及文档标注、格式转换、中文分词、TF-IDF计算、构建朴素贝叶斯分类器以及预测准确性评估。
摘要由CSDN通过智能技术生成

 最近在学习数据分析的知识,接触到了一些简单的NLP问题,比如做一个文档分类器,预测文档属于某类的准确率,应该怎么做呢

 

从头一起做一个吧

 

01.文档分类原理

 

文本分类是自然语言处理领域比较常见的一类任务,一般是给定多个文档类别,将文档或语句归类到某个类别中。其本质是文本特征提取+机器学习的多分类问题。

好的,这就是基本概念了,再来看看几个重要的步骤。

 

1.文档标注

就是要把样本文档分类,我们首先是要知道我们要把文档分为哪几类,这样才能有依据的构建模型,进而预测其他文档类型。

 

2.格式转换

为了方便后面的数据处理,一般是要把非txt文本,如word,excel,pdf等转换为txt格式,保证文档中不包含图片,不包含任何文档格式。

 

3.中文分词

这里就使用jieba了,很流行的工具,同时还要给文档加上标签,其实就是分类的数值化,后面具体说。

 

4.计算词语权重

如果某个词或短语在一篇文章中出现的频率很高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zhouluobo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值