一、简介
贝叶斯分类是一类分类算法的总称,这类算法以贝叶斯定理为基础。
贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。
定理定义
贝叶斯定理也称贝叶斯推理,早在18世纪,英国学者贝叶斯(1702~1763)曾提出计算条件概率的公式用来解决如下一类问题:假设H[1],H[2]…,H[n]互斥且构成一个完全事件,已知它们的概率P(H[i]),i=1,2,…,n,现观察到某事件A与H[1],H[2]…,H[n]相伴随机出现,且已知条件概率P(A/H[i]),求P(H[i]/A)。
贝叶斯公式(发表于1763年)为:
这就是著名的“贝叶斯定理”,一些文献中把P(H[1])、P(H[2])称为基础概率,P(A│H[1])为击中率,P(A│H[2])为误报率[1]
–百度百科
最广泛使用的两类分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。
朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。
二、条件概率
假设现有一个装了7块石头的罐子,其中3块白,4块黑。
如果从罐子中随机取出一块石头,那P(白)=3/7
现把7石头放入两个桶:
A桶 | B桶 |
---|---|
○○●● | ○●● |
要计算 P(白)或P(黑),需要先知道石头所在桶的信息会不会改变结果,这就是所谓条件概率,计为P(白|桶B),
可得出:
P(白|桶A)=2/4
P(白|桶B)=1/3
而贝叶斯准则给出一个有效的计算条件概率的方法:
如果已知P(x|c),要求p(c|x),则:
三、使用条件概率来分类
贝叶斯决策理论要求计算两个概率p1(x,y)和p2(x,y):
- 如果p1(x,y)>p2(x,y),那么属于类别1
- 如果p2(x,y)>p1(x,y),那么属于类别2
但这两个准则并不是贝叶斯决策理论的所有内容。使用p1( ) 和 p2( )只是为了尽可能简化描述,而真正需要计算和比较的是p(c1x,y)和p(c2|x,y)。