机器学习十大算法(二) 朴素贝叶斯分类器

概念

朴素贝叶斯最核心的部分是贝叶斯法则,而贝叶斯法则的基石是条件概率。

这里c表示类别,输入待判断数据,式子给出要求解的某一类概率。我们的最终目的是比较各类别的概率值大小。

应用

文本分类

我们的训练集由正常的文档和侮辱性文档组成,能反映侮辱性文档的是侮辱性词汇的出现频率。

词集模型:对于给定文档,只统计某个侮辱性词汇是否在本文档中出现。

词袋模型:对于给定文档,统计某个侮辱性词汇在本文中出现的频率,除此之外,往往还需要剔除重要性极低的高频词和停用词。因此,词袋模型更精炼,也更有效。

1.数据预处理-向量化

向量化,矩阵化操作是机器学习的追求。从数学表达式上看,向量化、矩阵化表示更加简洁;在实际操作中,矩阵化更高效。仍然以侮辱性文档识别为例。

首先,我们需要一张词典,该词典囊括了训练文档集中的所有必要词汇(无用高频词和停用词除外),还需要把每个文档剔除高频词和停用词。

其次,根据词典向量化每个处理后的文档。具体的,每个文档都定义为词典大小,分别遍历某类(侮辱性和非侮辱性)文档中每个词汇并统计出现次数;最后,得到一个个跟词典一样大小的向量,这些向量有一个个整数组成,每个整数代表了词典上一个对应位置的词在当下文档中出现频率。

最后,统计每一类处理过的文档中词汇总个数,某一个文档的词频向量除以相应类别的词汇总个数,即得到相应的条件概率,如P(xy|C0)。有了P(xy|C0)和P(C0),P(C0|x,y)就得到了,用完全一样的方法可以获得P(C1|x,y)。比较他们的大小,即可知道某人是不是大坏蛋,某篇文档是不是侮辱性文档了。

2.总结

不同于其它分类器,朴素贝叶斯是一种基于概率理论的分类算法

特征之间的条件独立性假设,显然这种假设显得粗鲁而不符合实际,这也是名称中朴素的由来。然而事实证明,朴素贝叶斯在有些领域很有用,比如垃圾邮件过滤。

在具体的算法实施中,要考虑很多实际问题。比如词集模型和词袋模型,还有停用词和无意义的高频词的剔除,以及大量的数据预处理问题。

总体上来说,朴素贝叶斯原理和实现都比较简单,学习和预测的效率都很高,是一种经典而常用的分类算法。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值