自然语言处理——文本分类概述

最新推荐文章于 2024-01-23 10:01:11 发布

xsdjj

最新推荐文章于 2024-01-23 10:01:11 发布

阅读量2.7w

点赞数 16

分类专栏：自然语言处理机器学习文本分类文章标签：机器学习文本分类自然语言处理

本文链接：https://blog.csdn.net/xsdjj/article/details/83755511

版权

内容提要

分类概述
分类流程
数据采集
- 爬虫技术
- 页面处理
文本预处理
文本表示
特征选择
分类模型

分类概述

分类(Classification)是指自动对数据进行标注。人们在日常生活中通过经验划分类别。但是要依据一些规则手工地对互联网上的每一个页面进行分类，是不可能的。因此，基于计算机的高效自动分类技术成为人们解决互联网应用难题的迫切需求。与分类技术类似的是聚类，聚类不是将数据匹配到预先定义的标签集合，而是通过与其他数据相关的隐含结构自动的聚集为一个或多个类别。文本分类是数据挖掘和机器学习领域的一个重要研究方向。
分类是信息检索领域多年来一直研究的课题，一方面以搜索的应用为目的来提高有效性和某些情况下的效率；另一方面，分类也是经典的机器学习技术。在机器学习领域，分类是在有标注的预定义类别体系下进行，因此属于有监督的学习问题；相反聚类则是一种无监督的学习问题。
文本分类(Text Classification或Text Categorization，TC)，或者称为自动文本分类(Automatic Text Categorization)，是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的过程。文本分类另外也属于自然语言处理领域。本文中文本(Text)和文档(Document)不加区分，具有相同的意义。
F. Sebastiani以如下数学模型描述文本分类任务：文本分类的任务可以理解为获得这样的一个函数Φ：D×C→{T，F}，其中，D={d₁,d₂,…,d_|D|} 表示需要进行分类的文档，C={c₁,c₂,…,c_|C|} 表示预定义的分类体系下的类别集合，T值表示对于(d_j,c_i)来说，文档d_j属于类c_i，而F值表示对于(d_j,c_i)而言文档d_j不属于类c_i 。也就是说，文本分类的目标就是要寻找一个有价值的函数映射，准确的完成D×C到T/F值的函数映射，这个映射过程本质上讲就是所谓的分类器。
文本分类的形式化定义如下：
设i = 1，…，M为文档集合里面的M篇文档， j = 1，…，N为预先定义的N个类别主题，可以给出这样一个分类结果矩阵C=(c_ij)；其中，矩阵中某一元素c_ij表示第i篇文档与第j个类别的关系。也就是说，文本自动分类可以归结为确定上面矩阵C的每一个元素的值的过程；使用一个布尔量1或0，如果c_ij 的值为1，则表示文档i属于第j类，如果值为0，则文档i不能被分入类别j，即：

对于单类别的分类，即某篇文档只允许被分入一个类别中，我们可以增加限定条件，对于第j行( j = 1，…，N)的所有元素，必须满足：

最低0.47元/天解锁文章

xsdjj

关注

16
点赞
踩
154

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理——文本分类概述

内容提要分类概述分类流程数据采集爬虫技术页面处理文本预处理英文处理中文处理停用词去除文本表示特征选择分类概述分类(Classification)是指自动对数据进行标注。人们在日常生活中通过经验划分类别。但是要依据一些规则手工地对互联网上的每一个页面进行分类，是不可能的。因此，基于计算机的高效自动分类技术成为人们解决互联网应用难题的迫切需求。与分类技术类似的是聚类，聚类不是将数据匹配到预先定...
复制链接

扫一扫

专栏目录