机器学习实战——朴素贝叶斯

本文详细介绍了朴素贝叶斯理论,包括其概述、特点、贝叶斯决策理论、条件概率与全概率公式、贝叶斯推断。讨论了朴素贝叶斯分类器在垃圾邮件分类和西瓜数据集上的应用,以及如何处理训练集中未出现的属性值问题,如拉普拉斯修正。
摘要由CSDN通过智能技术生成

目录

一、朴素贝叶斯理论

1.概述

2.朴素贝叶斯特点

3.贝叶斯决策理论

4.条件概率与全概率公式

5.贝叶斯推断

二、朴素贝叶斯分类器应用

拉普拉斯修正

三、垃圾邮件分类


一、朴素贝叶斯理论

1.概述

        朴素贝叶斯算法是有监督的学习算法,解决的是分类问题。其分类原理就是利用贝叶斯公式根据某特征的先验概率计算出其后验概率,然后选择具有最大后验概率的类作为该特征所属的类。之所以称之为”朴素”,是因为贝叶斯分类只做最原始、最简单的假设:所有的特征之间是统计独立的。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提,就会导致算法精度在某种程度上受影响。

2.朴素贝叶斯特点

优点:

  1. 对小规模的数据表现很好,能个处理多分类任务,适合增量式训练(即可以实时的对新增的样本进行训练)
  2. 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率
  3. 朴素贝叶斯算法的健壮性比较好,对于不同类型的数据集不会呈现出太大的差异性

缺点:

  1. 由于是通过先验概率和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率
  2. 对输入数据的表达形式较敏感
  3. 数据集属性的独立性在很多情况下是很难满足的,因为数据集的属性之间往往都存在着相互关联,在属性个数比较多或者属性之间相关性较大时,分类效果不好

3.贝叶斯决策理论

        朴素贝叶斯是贝叶斯决策理论的一部分,所以有必要了解一下贝叶斯决策理论。假设有一个数据集,它由两类数据组成,如下图:

我们现在用p1(x,y)表示数据点(x,y)属于类别1(图中红色圆点表示的类别)的概率,用p2(x,y)表示数据点(x,y)属于类别2(图中蓝色三角形表示的类别)的概率,那么对于一个新数据点(x,y),可以用下面的规则来判断它的类别:

  • 如果p1(x,y) > p2(x,y),那么类别为1
  • 如果p1(x,y) < p2(x,y),那么类别为2

也就是说,我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想,即选择具有最高概率的决策。

4.条件概率与全概率公式

        条件概率,就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。若只有两个事件A, B, 那么:

P(AB)=P(A|B)P(B)=P(B|A)P(A)

P(A|B)=\frac{P(AB)}{P(B))}

那么:

P(A|B)= \frac{P(B|A)*P(A)}{P(B)}


        全概率公式指若事件{A1,A2,…,An}构成一个完备事件组且都有正概率,则对任意一个事件B都有:

P(B)=P(BA_{1} )+P(BA_{2} )+\cdot \cdot\cdot +P(BA_{n})=P(B|A_{1})P(A_{1})+P(B|A_{2})P(A_{2} )+ \cdot \cdot\cdot+ P(B|A_{n})P(A_{n})

则有:

P(B)=\sum_{i=1}^{n}P(B|A_i)P(A_i)

5.贝叶斯推断

        对条件概率公式进行变形,可以得到如下形式:

P(A|B)=P(A)\frac{P(B|A)}{P(B)}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值