在贝叶斯分类器(一)一节,我们简要证明了贝叶斯分类器相较于其他判别规则具有最小误分类概率。我们知道贝叶斯分类的关键包括对类先验概率的确定以及类样本概率密度的确定。当使用不同的方法估计类样本概率密度时,我们基于贝叶斯分类(后验概率最大化)所得到的分类结果也有所不同。例如,我们可以假设观测样本的所有特征间均相互独立,也可以假设部分特征间相互依赖、部分特征相独立,或者我们也可以假设所有特征间均存在依赖关系,基于不同的假设我们可以得到不同的概率密度估计,由此也产生了不同的分类结果。接下来分别介绍不同特征依赖假设条件下的概率密度估计方法。
朴素贝叶斯模型
当我们假设观测样本的所有 n n n维特征间均相互独立时,我们可以在还大程度上简化类概率密度的估计过程,另一方面,特征独立性的假设能够有效避免高维空间维灾难的产生。
考虑一个多分类问题,样本
x
\boldsymbol x
x可能的取值有
i
=
ω
1
,
ω
2
,
⋯
ω
C
i = \omega_1, \omega_2,\cdots \omega_C
i=ω1,ω2,⋯ωC共计
C
C
C类,其中样本
x
\boldsymbol x
x为
n
n
n维空间中的一个观测样本,
x
=
(
x
1
,
x
2
⋯
x
n
)
\boldsymbol x =(x_1, x_2 \cdots x_n)
x=(x1,x2⋯xn)。我们对每一类分别进行后验概率密度估计,则第
ω
i
\omega_i
ωi类的后验概率可以表示为:
p
(
ω
i
∣
x
)
∝
p
(
ω
i
)
p
(
x
∣
ω
i
)
p(\omega_i|\boldsymbol x) \propto p(\omega_i)p(\boldsymbol x|\omega_i)
p(ωi∣x)∝p(ωi)p(x∣ωi)其中
∝
\propto
∝表示公式左右两侧相差一个乘数因子,对于本式,即为
p
(
x
)
p(\boldsymbol x)
p(x)。当计算不同类在某一指定样本下的后验概率密度时,这一乘子保持不变,因此可以省略。只计算
p
(
ω
i
)
p
(
x
∣
ω
i
)
p(\omega_i)p(\boldsymbol x|\omega_i)
p(ωi)p(x∣ωi)。在此,我们重点考虑
p
(
x
∣
ω
i
)
p(\boldsymbol x|\omega_i)
p(x∣ωi)的计算。
当假设观测样本
n
n
n维特征均相互独立时,我们有:
p
(
x
∣
ω
i
)
=
p
(
x
1
,
x
2
⋯
x
n
∣
ω
i
)
=
∏
j
=
1
n
p
(
x
j
∣
ω
i
)
p(\boldsymbol x|\omega_i) = p(x_1, x_2 \cdots x_n|\omega_i)=\prod_{j=1}^{n}p(x_j|\omega_i)
p(x∣ωi)=p(x1,x2⋯xn∣ωi)=j=1∏np(xj∣ωi)
此时,对于联合概率密度
p
(
x
1
,
x
2
⋯
x
n
∣
ω
i
)
p(x_1, x_2 \cdots x_n|\omega_i)
p(x1,x2⋯xn∣ωi)的估计被简化为分别估计每个特征
p
(
x
j
∣
ω
i
)
p(x_j|\omega_i)
p(xj∣ωi)的概率密度。
贝叶斯网络模型
在介绍贝叶斯网络模型前,我们先回顾以下条件概率的链式计算方法:
p
(
x
1
,
x
2
⋯
x
n
)
=
p
(
x
n
∣
x
1
,
x
2
⋯
x
n
−
1
)
p
(
x
n
−
1
∣
x
1
,
x
2
⋯
x
n
−
2
)
⋯
p
(
x
2
∣
x
1
)
p
(
x
1
)
p(x_1, x_2\cdots x_n) = p(x_n|x_1, x_2 \cdots x_{n-1})p(x_{n-1}|x_1, x_2\cdots x_{n-2})\cdots p(x_2|x_1)p(x_1)
p(x1,x2⋯xn)=p(xn∣x1,x2⋯xn−1)p(xn−1∣x1,x2⋯xn−2)⋯p(x2∣x1)p(x1)
从上式我们可以看出,我们将
x
1
,
x
2
⋯
x
n
x_1,x_2 \cdots x_n
x1,x2⋯xn之间的相互依赖关系转化为分别反映每个特征依赖关系图。例如,
x
2
x_2
x2依赖于
x
1
x_1
x1,
x
3
x_3
x3依赖于
x
1
,
x
2
x_1, x_2
x1,x2。在贝叶斯网络模型中,这种关系被称为父子关系,其中,
x
1
x_1
x1为顶层根节点,它没有父节点,只有子节点。
x
n
x_n
xn为底层子节点,它只有父节点,没有子结点。
图源:《Statistical Pattern Recognition》 187页
上图展示了当
n
=
6
n=6
n=6时的特征间依赖关系图示。可以看出,
x
6
x_6
x6有5个父节点,分别为
x
1
,
x
2
,
x
3
,
x
4
,
x
5
x_1, x_2, x_3, x_4, x_5
x1,x2,x3,x4,x5。在上图中,6个特征间均假设存在相关关系,而在实际中,这么复杂的关系或许是没有必要的,但如果我们假设所有特征间都相互独立,不存在相关关系(朴素贝叶斯),则可能过于简化,难以实现较好地分类效果。贝叶斯网络模型便是介于这二者之间,用于刻画部分变量间的相关关系的模型。
我们对上图特征间相关关系进行简化,使得:
p
(
x
6
∣
x
1
,
x
2
⋯
x
5
)
=
p
(
x
6
∣
x
4
,
x
5
)
p(x_6|x_1, x_2\cdots x_5) = p(x_6|x_4, x_5)
p(x6∣x1,x2⋯x5)=p(x6∣x4,x5)
即,
x
6
x_6
x6特征独立于
x
1
,
x
2
,
x
3
x_1, x_2, x_3
x1,x2,x3,类似地,进行如下简化:
p
(
x
5
∣
x
1
,
⋯
x
4
)
=
p
(
x
5
∣
x
3
)
p
(
x
4
∣
x
1
,
x
2
,
x
3
)
=
p
(
x
4
∣
x
1
,
x
3
)
p
(
x
3
∣
x
1
,
x
2
)
=
p
(
x
3
)
p(x_5|x_1, \cdots x_4) = p(x_5|x_3) \newline p(x_4|x_1, x_2, x_3) = p(x_4|x_1,x_3)\newline p(x_3|x_1, x_2) = p(x_3)
p(x5∣x1,⋯x4)=p(x5∣x3)p(x4∣x1,x2,x3)=p(x4∣x1,x3)p(x3∣x1,x2)=p(x3)
简化后的贝叶斯网络结构如下:
图(b)是对图(a)结构略做调整,使其更为直观。在贝叶斯网络模型的设定中,如何决策变量间是否应当添加相关关系是重点。这一问题通常可以根据专家对实际领域数据的理解进行指定,也可以基于已有的训练数据进行学习确定,再此不一一展开。
全相关模型
全相关即认为所有特征间均存在相关关系,例如我们可以假设每一类观测样本服从
n
n
n维高斯分布,对多个类,分布拟合多个
n
n
n维高斯分布。此时的贝叶斯分类器也称之为高斯分类器。
p
(
x
∣
ω
i
)
=
N
(
x
;
μ
j
,
Σ
j
)
=
1
(
2
π
)
d
/
2
∣
Σ
j
∣
1
/
2
e
x
p
{
−
1
2
(
x
−
μ
j
)
T
Σ
j
−
1
(
x
−
μ
j
)
}
p(\boldsymbol x|\omega_i) = N(\boldsymbol x;\boldsymbol \mu_j,\Sigma_j)\newline =\frac{1}{(2\pi)^{d/2}|\Sigma_j|^{1/2}}exp\left\{ -\frac{1}{2}(\boldsymbol x - \boldsymbol \mu_j)^T\Sigma_j^{-1}(\boldsymbol x - \boldsymbol \mu_j)\right \}
p(x∣ωi)=N(x;μj,Σj)=(2π)d/2∣Σj∣1/21exp{−21(x−μj)TΣj−1(x−μj)}
以上便是本次总结中提到的三种依据对特征独立性不同假设所作出的三种不同概率分布模型。
写完这篇文章,黎曼猜想证明讲座好像刚结束,去凑个热闹。虽然啥都听不懂,hahaha