贝叶斯定理
首先是条件概率公式如下:
为了方便理解,可以参考下图
图1 条件概率
已知两个独立事件 A A 和,那么事件 B B 发生的前提下,事件发生的概率可以表示为 P(A|B) P ( A | B ) ,即上图中橙色部分占红色部分的比例,那么 P(A|B) P ( A | B ) 就可以表示为 P(AB)P(B) P ( A B ) P ( B ) ,同理可以得到 P(B|A)=P(AB)P(A) P ( B | A ) = P ( A B ) P ( A ) ,再整理下就可以得到贝叶斯公式了。
再介绍下全概率公式
简单的推理其实就是在完备事件 A A 中,事件发生的概率 P(B)=P(A,B) P ( B ) = P ( A , B ) ,若将完备事件划分为n个互斥事件 {A1,A2,...,An} { A 1 , A 2 , . . . , A n } ,则 P(B)=∑ni=1P(Ai,B) P ( B ) = ∑ i = 1 n P ( A i , B ) ,通过贝叶斯公式就可以得到上述全概率公式。具体可以参考下图辅助理解
图2 全概率
以上图中 A5 A 5 为例,根据条件概率公式可以知道 P(A5|B)=P(B|A5)P(A5)P(B) P ( A 5 | B ) = P ( B | A 5 ) P ( A 5 ) P ( B ) ,再利用可以利用全概率公式则可以得到 P(A5|B)=P(B|A5)P(A5)∑5i=1P(Ai)P(B|Ai) P ( A 5 | B ) = P ( B | A 5 ) P ( A 5 ) ∑ i = 1 5 P ( A i ) P ( B | A i )
那么经典帅气的贝叶斯公式如下:
贝叶斯决策
贝叶斯决策就是利用贝叶斯理论进行决策分类,是统计机器学习的基本方法之一,以前导师曾说过,如果你的理论推导能够结合贝叶斯决策理论,那会给论文加分不少。现在流行的深度学习本身是基于神经网络的,但由于需要大数据的支持,因此也可以通过统计机器学习方法来进行分析和论证,具体的结合方法可以参考SegNet里面的贝叶斯方法,接下来要讲的就是具体的贝叶斯决策方法。
很多时候呐,在模式识别的问题里,我们只能够观察到一系列的特征
x=[x1,x2,...,xn]T
x
=
[
x
1
,
x
2
,
.
.
.
,
x
n
]
T
,那么如何对这一系列的观察值进行分类呐?在统计机器学习里面,就是求解概率
P(ωi|x)
P
(
ω
i
|
x
)
,可以理解为在观察到特征
x
x
的前提下,观察到的现象属于类的概率是多大。
还是以书上最常用的观察细胞特征并判断细胞是否正常的栗子来说明(唔~你可以认为我是懒得举别的栗子),首先是已知条件,观察到的细胞特征是n维向量
x=[x1,x2,...,xn]T
x
=
[
x
1
,
x
2
,
.
.
.
,
x
n
]
T
,细胞分为正常细胞
ω1
ω
1
类和异常细胞
ω2
ω
2
类;当然
P(ω1)+P(ω2)=1
P
(
ω
1
)
+
P
(
ω
2
)
=
1
,如果仅从先验概率
P(ω1)
P
(
ω
1
)
和
P(ω2)
P
(
ω
2
)
对细胞进行分类,合理的方法是:当
P(ω1)>P(ω2)
P
(
ω
1
)
>
P
(
ω
2
)
时,认为是正常细胞,反之则是异常细胞;但实际不可能这么做,因为一般情况下先验概率都是个常量,而且我们对细胞的分类是会随着观察值的改变而改变的,那么如果我们现在观察到了细胞特征
x
x
,在特征的基础上要判断细胞是属于哪一类,就是要判断
P(ω1|x)
P
(
ω
1
|
x
)
和
P(ω2|x)
P
(
ω
2
|
x
)
的大小。
图3
结合贝叶斯公式,可以知道
P(ω1|x)=P(x|ω1)P(ω1)∑2i=1P(x|ωi)P(ωi)
P
(
ω
1
|
x
)
=
P
(
x
|
ω
1
)
P
(
ω
1
)
∑
i
=
1
2
P
(
x
|
ω
i
)
P
(
ω
i
)
,那么就把求解
P(ωi|x)
P
(
ω
i
|
x
)
转变为了求解先验概率
P(ωi)
P
(
ω
i
)
和条件概率
P(x|ωi)
P
(
x
|
ω
i
)
,唔,怎么说呢,其实这两个概率应该是都可以通过采样获取的,结合上图,可以理解为
P(ωi)
P
(
ω
i
)
就是对完备事件的划分
ω1
ω
1
和
ω2
ω
2
的面积比例,
P(x|ωi)
P
(
x
|
ω
i
)
就是在
ωi
ω
i
划的区域内x所占的面积比例(
P(x|ω1)
P
(
x
|
ω
1
)
就是橙色所占黄色的比例)
以上,在贝叶斯决策里,我们通常要求解的
P(ωi|x)
P
(
ω
i
|
x
)
被称作后验概率,
P(ωi)
P
(
ω
i
)
被称作先验概率,
P(x|ωi)
P
(
x
|
ω
i
)
被称作观察x的类条件概率,当然《模式识别(第二版)》那本书上用的是条件概率密度,嗯,其实也就是观察值的连续函数,在很多的问题当中,是要对这个概率密度函数的参数进行估计才能继续求解的,因此贝叶斯决策理论很多时候都是建立在强假设条件下;当然,贝叶斯决策也有损失函数,那么基于损失函数就会有很多不同的决策方法,例如基于最小错误率、最小风险等。
最小错误率贝叶斯决策
试着将图3转换一下,首先,观察到
x
x
的概率可以被看作是一个常量(这里应该可以看作事件B在完备集中的概率是一定的,即图3中圆形面积是一定的,那么其观测值一定是落在圆形区域范围之内,也就是一定的),根据贝叶斯公式,
P(ωi|x)
P
(
ω
i
|
x
)
就正比于条件概率密度函数
p(x|ωi)
p
(
x
|
ω
i
)
,
P(ωi|x)∝p(x|ωi)
P
(
ω
i
|
x
)
∝
p
(
x
|
ω
i
)
(这里不是概率了,如果是在具体的问题中,可以用概率
P
P
对最终结果进行求解,但这里是一般性的推导,所以就将其转换为对应的概率密度函数了,额,不知道怎么说会不会有BUG),那么这个概率密度函数的图像又是什么样的呐?假定是一维的,那么图3对应的概率密度函数图像可能如下图所示
图4 条件概率密度函数曲线
横坐标是观察值 x x 的取值,根据概率密度函数就可以得到,那么在什么情况下会出现错误分类的情况呢?假定图4中观察到的 x0 x 0 是属于 ω2 ω 2 类的,但此时根据概率密度函数有 p(x0|ω1)>p(x0|ω2) p ( x 0 | ω 1 ) > p ( x 0 | ω 2 ) ,贝叶斯决策就会将 x0 x 0 归为 ω1 ω 1 类。以 P(e) P ( e ) 来表示贝叶斯决策的平均错误率,定义为
对于 P(e,x) P ( e , x ) ,可以理解为在观测到 x x 时并且将错误分类的概率,参考图4中的 x0 x 0 ,通过条件概率公式就可以得到 P(e|x)P(x) P ( e | x ) P ( x ) 。对于二分类问题,我们可以令
其实就是原本属于 ω1 ω 1 类但观察值 x x 出现在图4中虚线右边,或者原本属于类但观察值 x x 出现在虚线左边(嗯,对的,就是图4中两个波峰重叠的部分),假定虚线处的横坐标值为,这样就可以把 P(e) P ( e ) 的积分部分拆分为两个部分求和,即
嗯,对,上式我跳步了,有需要的自己看下书,谢谢!以上,可以看到平均错误率其实就是图4中重叠部分的面积,其中虚线可以被看作是一个决策分界, x>t x > t 的时就将其分类到 ω2 ω 2 类,反之亦然。以此推广到 n n 维空间的话,就有
额,其实上面都在抄书,只是为了证明,普通情况下,这样的贝叶斯决策是基于最小错误率的。当然,在这种情况下,都是假定每次决策错误的风险都是一样,如果做出错误决策的风险不一样了,怎么办?
最小风险贝叶斯决策
那么,如果做每一项决定的时候都有风险,那么如何使得贝叶斯决策的风险最小呐?这里还是用观察细胞状态的栗子来进行说明,如果将异常细胞判断为了正常细胞,就有可能耽误就诊,其风险就大于将正常细胞误判为异常细胞的风险。此时最小错误率的决策方法就不适合了,那么为了使风险减小,就需要移动图4中虚线的位置,要使得风险更大的那类错误分类更小,如下图所示
图5 最小风险贝叶斯决策
定义决策风险系数 λ(α,ω) λ ( α , ω ) 是一个关于真实状态( ω ω )和决策( α α )的函数,那么根据期望的定义可以知道采取决策 αi α i 决策期望风险 R(αi|x)=∑nj=1λ(αi,ωj)P(ωj|x) R ( α i | x ) = ∑ j = 1 n λ ( α i , ω j ) P ( ω j | x ) ,期望风险
唔~上式还是抄书的。其实呐,说了辣么多,在实际操作的时候,就是在根据贝叶斯公式求解出 P(ωi|x) P ( ω i | x ) 之后,再乘以对应风险系数 λ λ 得到风险值,最后根据风险值进行决策就好了。
另外一点,最小错误率贝叶斯决策就是在0-1损失函数条件下(也就是说风险均等,任何错误的损失系数都为1)的最小风险贝叶斯决策
其他的决策方法
还有比如最大最小决策、序贯分类方法等这里就不提了(不提别当作没有啊)
以上主要是我自己对贝叶斯决策的理解,当然有很多其实是抄书,但是多少附加了自己的理解上去,可能不对,请帮忙指出我好改正,谢谢!
其实是我懒,不想写后面的,下次再说吧