朴素贝叶斯
朴素贝叶斯是贝叶斯分类器里的一种方法。之所以称它朴素,原因就在于做出了特征条件全部独立的假设,但实际上,特征相互之间很大程度上都不是独立的,都有一些内在联系。但是,实践证明这因素也并未产生多大影响。
基于以上,可以总结,
1. 当样本特征数量比较多,且相关性比较大时,不适宜用朴素贝叶斯分类器,可以采用更好的如决策树等。
2. 当样本特征相关性不是那么强时,便可采用。
数学模型
首先来回忆一下贝叶斯定理:
- P(A)、P(B) 分别是事件A、B发生的先验概率。之所以称为‘先验’,是因为这个概率是我们根据经验和分析而得出的,比如根据伯努利大数定律,我们用事件发生的频率来计算发生的概率。
- P(A|B)、P(B|A)分别是在事件B/A发生的条件下,事件A/B发生的概率,也就是所说的后验概率。
接着建立朴素贝叶斯模型:
- 输入空间 X∈Rn ,输出空间是类别标记集合 Y={C1,C2,C3…Ck}
- P(X,Y)是X和Y的联合概率分布。训练数据T={(x1,y1),(x2,y2,)(x3,y3)…,(xn,yn)} 是由P(X,Y)独立同分布产生。要注意的是,这里的xi实际上是一个多维向量,yi代表的是分类的标签。
P(X,Y)实际上就通过训练数据集学习出来的。P(X,Y)=P(Y=Ck)*