机器学习十大算法（二）朴素贝叶斯分类器

最新推荐文章于 2022-12-07 15:48:44 发布

black2b

最新推荐文章于 2022-12-07 15:48:44 发布

阅读量382

点赞数

概念

朴素贝叶斯最核心的部分是贝叶斯法则，而贝叶斯法则的基石是条件概率。

这里c表示类别，输入待判断数据，式子给出要求解的某一类概率。我们的最终目的是比较各类别的概率值大小。

应用

文本分类

我们的训练集由正常的文档和侮辱性文档组成，能反映侮辱性文档的是侮辱性词汇的出现频率。

词集模型：对于给定文档，只统计某个侮辱性词汇是否在本文档中出现。

词袋模型：对于给定文档，统计某个侮辱性词汇在本文中出现的频率，除此之外，往往还需要剔除重要性极低的高频词和停用词。因此，词袋模型更精炼，也更有效。

1.数据预处理-向量化

向量化，矩阵化操作是机器学习的追求。从数学表达式上看，向量化、矩阵化表示更加简洁；在实际操作中，矩阵化更高效。仍然以侮辱性文档识别为例。

首先，我们需要一张词典，该词典囊括了训练文档集中的所有必要词汇（无用高频词和停用词除外），还需要把每个文档剔除高频词和停用词。

其次，根据词典向量化每个处理后的文档。具体的，每个文档都定义为词典大小，分别遍历某类（侮辱性和非侮辱性）文档中每个词汇并统计出现次数；最后，得到一个个跟词典一样大小的向量，这些向量有一个个整数组成，每个整数代表了词典上一个对应位置的词在当下文档中出现频率。

最后，统计每一类处理过的文档中词汇总个数，某一个文档的词频向量除以相应类别的词汇总个数，即得到相应的条件概率，如P（x，y|C0）。有了P（x，y|C0）和P（C0），P（C0|x，y）就得到了，用完全一样的方法可以获得P（C1|x，y）。比较他们的大小，即可知道某人是不是大坏蛋，某篇文档是不是侮辱性文档了。

2.总结

不同于其它分类器，朴素贝叶斯是一种基于概率理论的分类算法

特征之间的条件独立性假设，显然这种假设显得粗鲁而不符合实际，这也是名称中朴素的由来。然而事实证明，朴素贝叶斯在有些领域很有用，比如垃圾邮件过滤。

在具体的算法实施中，要考虑很多实际问题。比如词集模型和词袋模型，还有停用词和无意义的高频词的剔除，以及大量的数据预处理问题。

总体上来说，朴素贝叶斯原理和实现都比较简单，学习和预测的效率都很高，是一种经典而常用的分类算法。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。