为什么贝叶斯分类器具有最小误分类率?
本文主要理论推导主要来自于:《Statistical Pattern Recognition》一书英文版第8-10页相关内容,如有错误,望各位不吝赐教。
统计学习中的决策过程主要可以分为两大类,一类为基于概率分布的决策,一类为基于判别函数的决策。
在基于概率分布的决策中,通常使用贝叶斯定理进行决策。我们可能都听说过贝叶斯分类器具有最小化误分类概率,我之前在学习中一直对此概念囫囵吞枣,不甚明白,甚至将贝叶斯分类器与朴素贝叶斯混为一谈,在重新学习相关知识后,恍然大悟,特此总结如下。
贝叶斯定理及贝叶斯分类器
考虑一个分类问题,待分类样本记为 x \boldsymbol x x,其所有可能类别为 i = ω 1 , ω 2 , ⋯ ω C i = \omega_1, \omega_2, \cdots \omega_C i=ω1,ω2,⋯ωC共计 C C C类。每一类的先验概率 p ( ω i ) p(\omega_i) p(ωi), ∑ i = 1 C p ( ω i ) = 1 \sum_{i=1}^{C}p(\omega_i) = 1 ∑i=1Cp(ωi)=1。若给定任一样本,我们对其各项特征取值均未知,让我们对其进行分类,此时为使误分类误差最小,自然地,我们应当将样本分类至具有最大先验概率的类别 i i i中,即 max i p ( ω i ) \max\limits_{i}p(\omega_i) imaxp(ωi)。
当我们知道给定样本的各项特征取值时,我们又该如何对其进行分类呢?记该样本各特征值向量为 x \boldsymbol x x,此时我们可以根据贝叶斯公式计算其属于第 i i i类的后验证概率 p ( ω i ∣ x ) p(\omega_i|\boldsymbol x) p(ωi∣x),直觉告诉我们,此时如果将样本分类至具有最大后验概率的类别 i i i,即 max i p ( ω i ∣ x ) \max\limits_{i}p(\omega_i|\boldsymbol x) imaxp(ωi∣x)中时,误分类概率最小。事实上,基于最大后验概率进行分类的贝叶斯分类器确实具有最小的误分类率,接下来我们将通过多分类问题对其进行证明。
贝叶斯定理计算
ω
i
\omega_i
ωi的后验概率公式如下:
p
(
ω
j
∣
x
)
=
p
(
x
∣
ω
j
)
p
(
ω
j
)
p
(
x
)
p(\omega_j|\boldsymbol x) = \dfrac {p(\boldsymbol x|\omega_j)p(\omega_j)}{p(\boldsymbol x)}
p(ωj∣x)=p(x)p(x∣ωj)p(ωj)
任一决策规则下,误分类率的计算
考虑一个多分类问题,样本
x
\boldsymbol x
x可能的取值有
i
=
ω
1
,
ω
2
,
⋯
ω
C
i = \omega_1, \omega_2,\cdots \omega_C
i=ω1,ω2,⋯ωC共计
C
C
C类,假设我们基于某一决策规则,对一系列样本
x
1
\boldsymbol x_1
x1,
x
2
\boldsymbol x_2
x2,
⋯
\cdots
⋯进行分类,该分类规则将整个样本空间
Ω
\Omega
Ω划分为互不重叠的子空间
Ω
1
⋯
\Omega_1\cdots
Ω1⋯
Ω
C
\Omega_C
ΩC,其中如果
x
\boldsymbol x
x落在
Ω
i
\Omega_i
Ωi空间内,则
x
\boldsymbol x
x属于第
ω
i
\omega_i
ωi类。此时,该决策规则下的误分类率可基于全概率公式计算如下:
p
(
e
r
r
o
r
)
=
∑
i
=
1
C
p
(
e
r
r
o
r
∣
ω
i
)
p
(
ω
i
)
p(error) = \sum_{i = 1}^{C} p(error|\omega_i)p(\omega_i)
p(error)=i=1∑Cp(error∣ωi)p(ωi)
其中
p
(
e
r
r
o
r
∣
ω
i
)
p(error|\omega_i)
p(error∣ωi)表示第
ω
i
\omega_i
ωi类的误分类率,其计算如下:
p
(
e
r
r
o
r
∣
ω
i
)
=
1
−
p
(
c
o
r
r
e
c
t
∣
ω
i
)
p(error|\omega_i) = 1 - p(correct|\omega_i)
p(error∣ωi)=1−p(correct∣ωi)
=
1
−
∫
Ω
i
p
(
x
∣
ω
i
)
d
x
=1 - \int_{\Omega_i}p(\boldsymbol x|\omega_i)d\boldsymbol x
=1−∫Ωip(x∣ωi)dx
所以,
p
(
e
r
r
o
r
)
=
∑
i
=
1
C
p
(
ω
i
)
(
1
−
∫
Ω
i
p
(
x
∣
ω
i
)
d
x
)
p(error) = \sum_{i=1}^{C}p(\omega_i)\left(1-\int_{\Omega_i}p(\boldsymbol x|\omega_i)d\boldsymbol x\right)
p(error)=i=1∑Cp(ωi)(1−∫Ωip(x∣ωi)dx)
=
1
−
∑
i
=
1
C
∫
Ω
i
p
(
ω
i
)
p
(
x
∣
ω
i
)
d
x
=1 - \sum_{i = 1}^{C}\int_{\Omega_i}p(\omega_i)p(\boldsymbol x|\omega_i)d\boldsymbol x
=1−i=1∑C∫Ωip(ωi)p(x∣ωi)dx
最优决策规则
基于第二小节任意决策规则下,误分类率的计算可知,若要最小化误分类概率,则应最大化
∑
i
=
1
C
∫
Ω
i
p
(
ω
i
)
p
(
x
∣
ω
i
)
d
x
\sum_{i = 1}^{C}\int_{\Omega_i}p(\omega_i)p(\boldsymbol x|\omega_i)d\boldsymbol x
i=1∑C∫Ωip(ωi)p(x∣ωi)dx
即将样本
x
\boldsymbol x
x分类到使得
p
(
ω
i
)
p
(
x
∣
ω
i
)
p(\omega_i)p(\boldsymbol x|\omega_i)
p(ωi)p(x∣ωi)达到最大的类别
ω
i
\omega_i
ωi上,此时,对全体空间上样本总的正确分类率为:
c
=
∫
Ω
max
i
p
(
ω
i
)
(
x
∣
ω
i
)
d
x
c = \int_{\Omega} \max\limits_{i} p(\omega_i)(\boldsymbol x|\omega_i)d\boldsymbol x
c=∫Ωimaxp(ωi)(x∣ωi)dx
注意到:
p
(
ω
i
)
p
(
x
∣
ω
i
)
=
p
(
ω
i
∣
x
)
p
(
x
)
p(\omega_i)p(\boldsymbol x|\omega_i) = p(\omega_i|\boldsymbol x)p(\boldsymbol x)
p(ωi)p(x∣ωi)=p(ωi∣x)p(x)
其中,
p
(
x
)
p(\boldsymbol x)
p(x)对每一确定样本为常数,因此,最大化
p
(
ω
i
)
p
(
x
∣
ω
i
)
p(\omega_i)p(\boldsymbol x|\omega_i)
p(ωi)p(x∣ωi)等价于最大化贝叶斯后验概率
p
(
ω
i
∣
x
)
p(\omega_i|\boldsymbol x)
p(ωi∣x),由此即可证明,贝叶斯分类器具有最小误分类率。其误分类率为:
1
−
c
=
1
−
∫
Ω
max
i
p
(
ω
i
)
(
x
∣
ω
i
)
d
x
1 -c =1- \int_{\Omega} \max\limits_{i} p(\omega_i)(\boldsymbol x|\omega_i)d\boldsymbol x
1−c=1−∫Ωimaxp(ωi)(x∣ωi)dx
至此,我们证明了,基于最大化后验概率的贝叶斯分类器具有最小化误分类率。
朴素贝叶斯分类
根据前述分析,我们理解了贝叶斯分类器是一种根据类的概率密度进行分类(最大化后验概率)的决策方法。事实上,真实数据中,类的概率密度的分布形式及其参数都是未知的,通常我们需要依靠经验和已有的训练数据来估计类的概率密度,当采用不同的方法估计类的概率密度时,我们所得到的最终分类结果自然也不相同。
很多人,可能听说过朴素贝叶斯这一分类方法。根据名字不难理解,朴素贝叶斯应当属于一类特殊的贝叶斯分类器。事实上,朴素贝叶斯基于样本的各特征间相互独立这一假设进行类概率密度的确定。当计算高维概率密度的后验概率时,若
n
n
n维特征间相互独立,则可以容易地得出:
p
(
x
∣
ω
i
)
=
∏
i
=
1
n
p
(
x
i
∣
ω
i
)
p(\boldsymbol x|\omega_i) = \prod_{i = 1}^{n}p(x_i|\omega_i)
p(x∣ωi)=i=1∏np(xi∣ωi)
这在很大程度上能够简化计算。
以上,即是本次全部总结。