目录
一、朴素贝叶斯理论
1.概述
朴素贝叶斯算法是有监督的学习算法,解决的是分类问题。其分类原理就是利用贝叶斯公式根据某特征的先验概率计算出其后验概率,然后选择具有最大后验概率的类作为该特征所属的类。之所以称之为”朴素”,是因为贝叶斯分类只做最原始、最简单的假设:所有的特征之间是统计独立的。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提,就会导致算法精度在某种程度上受影响。
2.朴素贝叶斯特点
优点:
- 对小规模的数据表现很好,能个处理多分类任务,适合增量式训练(即可以实时的对新增的样本进行训练)
- 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率
- 朴素贝叶斯算法的健壮性比较好,对于不同类型的数据集不会呈现出太大的差异性
缺点:
- 由于是通过先验概率和数据来决定后验的概率从而决定分类,所以分类决策存在一定的错误率
- 对输入数据的表达形式较敏感
- 数据集属性的独立性在很多情况下是很难满足的,因为数据集的属性之间往往都存在着相互关联,在属性个数比较多或者属性之间相关性较大时,分类效果不好
3.贝叶斯决策理论
朴素贝叶斯是贝叶斯决策理论的一部分,所以有必要了解一下贝叶斯决策理论。假设有一个数据集,它由两类数据组成,如下图:
我们现在用p1(x,y)表示数据点(x,y)属于类别1(图中红色圆点表示的类别)的概率,用p2(x,y)表示数据点(x,y)属于类别2(图中蓝色三角形表示的类别)的概率,那么对于一个新数据点(x,y),可以用下面的规则来判断它的类别:
- 如果p1(x,y) > p2(x,y),那么类别为1
- 如果p1(x,y) < p2(x,y),那么类别为2
也就是说,我们会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想,即选择具有最高概率的决策。
4.条件概率与全概率公式
条件概率,就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。若只有两个事件A, B, 那么:
那么:
全概率公式,指若事件{A1,A2,…,An}构成一个完备事件组且都有正概率,则对任意一个事件B都有:
则有:
5.贝叶斯推断
对条件概率公式进行变形,可以得到如下形式: