中文文本分类-朴素贝叶斯

最新推荐文章于 2024-05-15 11:01:10 发布

晓风残月xj

最新推荐文章于 2024-05-15 11:01:10 发布

阅读量7.8k

点赞数 5

分类专栏：模式识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaofengcanyuexj/article/details/52541139

版权

原创作品，出自 “晓风残月xj” 博客，欢迎转载，转载时请务必注明出处（http://blog.csdn.net/xiaofengcanyuexj）。

由于各种原因，可能存在诸多不足，欢迎斧正！

　　最近在想怎么利用数据挖掘的方法进行评论自动审核，分类为垃圾评论和非垃圾评论，完成自动审核功能。实现中文文本分类，支持文件、文本分类，基于多项式分布的朴素贝叶斯分类器。由于工作实际应用是二分类，加之考虑到每个分类属性都建立map存储词语向量可能引起的内存问题，所以目前只支持二分类。当然，直接复用这个结构扩展到多分类也是很容易。之所以自己写，主要原因是没有仔细研读mahout、weka等代码，不能灵活地进行中文分词、停用词过滤、词频统计、TF-IDF等，也就是向量化和特征提取没有自己手写相对灵活。

一、贝叶斯分类器

　　贝叶斯分类器是基于先验概率与条件概率进行概率计算的分类器。Ｘ是特征属性，Y是分类属性，P(Y|{x0,x1....xn})是X在取值{x0,x1,...xn}的条件下Y发生的概率，成为P(Y)的后验概率，P(Y)的先验概率。实际在计算P(Y|{x0,x1....xn})的时候由于维度太高，至少需要考虑特征属性与分类属性的所有搭配情况，计算量大而且无法对待分类数据集进行全面覆盖。

1.1朴素贝叶斯

　　朴素贝叶斯就是假设特征属性的取值彼此独立，即没有相互作用关系。如果P(AB|C)=P(A|C)P(B|C)，则A和B在C条件独立。贝叶斯定理也是贝叶斯基于先验概率计算条件概率的重要理论基础，如下是贝叶斯定理：

　　　　　　　

待分类的特征属性　　　　　　

类别属性　

１)、在有分类属性的数据集上，计算：

２)、在给定特征属性数据上，有贝叶斯定理：

３)、已知P(x)是常数，加之特征属性间条件独立，只需求

二、中文文本分类

　　中文分本分类通用方法是将文本按照一定规则编码成向量形式：特征属性和分类属性。具体的是利用一定的分词规则将文本切成一个个单词

最低0.47元/天解锁文章

关注

5
点赞
踩
18

收藏

觉得还不错? 一键收藏
8
评论
中文文本分类-朴素贝叶斯

贝叶斯分类器是基于先验概率与条件概率进行概率计算的分类器。Ｘ是特征属性，Y是分类属性，P(Y|{x0,x1....xn})是X在取值{x0,x1,...xn}的条件下Y发生的概率，成为P(Y)的后验概率，P(Y)的先验概率。实际在计算P(Y|{x0,x1....xn})的时候由于维度太高，至少需要考虑特征属性与分类属性的所有搭配情况，计算量大而且无法对待分类数据集进行全面覆盖。
复制链接

扫一扫

专栏目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。