“ 最近在学习数据分析的知识,接触到了一些简单的NLP问题,比如做一个文档分类器,预测文档属于某类的准确率,应该怎么做呢”
从头一起做一个吧
01.文档分类原理
文本分类是自然语言处理领域比较常见的一类任务,一般是给定多个文档类别,将文档或语句归类到某个类别中。其本质是文本特征提取+机器学习的多分类问题。
好的,这就是基本概念了,再来看看几个重要的步骤。
1.文档标注
就是要把样本文档分类,我们首先是要知道我们要把文档分为哪几类,这样才能有依据的构建模型,进而预测其他文档类型。
2.格式转换
为了方便后面的数据处理,一般是要把非txt文本,如word,excel,pdf等转换为txt格式,保证文档中不包含图片,不包含任何文档格式。
3.中文分词
这里就使用jieba了,很流行的工具,同时还要给文档加上标签,其实就是分类的数值化,后面具体说。
4.计算词语权重
如果某个词或短语在一篇文章中出现的频率很高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类