作为统计判别问题的模式分类
- 模式识别的目的就是要确定某一个给定的模式样本属于哪一类
- 输入:被识别对象的特征向量
- 输出:被识别样本的类别
贝叶斯判别原则
两类模式集的分类
- 目的:要确定 x x x是属于 ω 1 \omega_1 ω1类还是 ω 2 \omega_2 ω2类,要看 x x x是来自于 ω 1 \omega_1 ω1类的概率大还是来自 ω 2 \omega_2 ω2类的概率大。
根据概率判别规则,有:
若
P
(
ω
1
∣
x
)
>
P
(
ω
2
∣
x
)
P(\omega_1|x) \gt P(\omega_2|x)
P(ω1∣x)>P(ω2∣x),则
x
∈
ω
1
x \in \omega_1
x∈ω1
若
P
(
ω
1
∣
x
)
<
P
(
ω
2
∣
x
)
P(\omega_1|x) \lt P(\omega_2|x)
P(ω1∣x)<P(ω2∣x),则
x
∈
ω
2
x \in \omega_2
x∈ω2
由贝叶斯定理,后验概率
P
(
ω
i
∣
x
)
P(\omega_i|x)
P(ωi∣x)可由类别
ω
i
\omega_i
ωi的先验概率
P
(
ω
i
)
P(\omega_i)
P(ωi)和
x
x
x的条件概率密度
P
(
x
∣
ω
i
)
P(x|\omega_i)
P(x∣ωi)来计算,即:
P
(
ω
i
∣
x
)
=
P
(
x
∣
ω
i
)
P
(
ω
i
)
P
(
x
)
=
P
(
x
∣
ω
i
)
P
(
ω
i
)
∑
i
=
1
2
P
(
x
∣
ω
i
)
P
(
ω
i
)
P(\omega_i|x)=\frac{P(x|\omega_i)P(\omega_i)}{P(x)}=\frac{P(x|\omega_i)P(\omega_i)}{\sum_{i=1}^2{P(x|\omega_i)P(\omega_i)}}
P(ωi∣x)=P(x)P(x∣ωi)P(ωi)=∑i=12P(x∣ωi)P(ωi)P(x∣ωi)P(ωi)
这里
P
(
x
∣
ω
i
)
P(x|\omega_i)
P(x∣ωi)也称为似然函数,将该式代入上述判别式,有:
若
P
(
x
∣
ω
1
)
P
(
ω
1
)
>
P
(
x
∣
ω
2
)
P
(
ω
2
)
P(x|\omega_1)P(\omega_1) \gt P(x|\omega_2)P(\omega_2)
P(x∣ω1)P(ω1)>P(x∣ω2)P(ω2),则
x
∈
ω
1
x \in \omega_1
x∈ω1
若
P
(
x
∣
ω
1
)
P
(
ω
1
)
<
P
(
x
∣
ω
2
)
P
(
ω
2
)
P(x|\omega_1)P(\omega_1) \lt P(x|\omega_2)P(\omega_2)
P(x∣ω1)P(ω1)<P(x∣ω2)P(ω2),则
x
∈
ω
2
x \in \omega_2
x∈ω2
或
若
l
12
(
x
)
=
P
(
x
∣
ω
1
)
P
(
x
∣
ω
2
)
>
P
(
ω
2
)
P
(
ω
1
)
l_{12}(x)=\frac{P(x|\omega_1)}{P(x|\omega_2)} \gt \frac{P(\omega_2)}{P(\omega_1)}
l12(x)=P(x∣ω2)P(x∣ω1)>P(ω1)P(ω2),则
x
∈
ω
1
x \in \omega_1
x∈ω1
若
l
12
(
x
)
=
P
(
x
∣
ω
1
)
P
(
x
∣
ω
2
)
<
P
(
ω
2
)
P
(
ω
1
)
l_{12}(x)=\frac{P(x|\omega_1)}{P(x|\omega_2)} \lt \frac{P(\omega_2)}{P(\omega_1)}
l12(x)=P(x∣ω2)P(x∣ω1)<P(ω1)P(ω2),则
x
∈
ω
2
x \in \omega_2
x∈ω2
其中,
l
12
l_{12}
l12称为似然比,
P
(
ω
2
)
P
(
ω
1
)
\frac{P(\omega_2)}{P(\omega_1)}
P(ω1)P(ω2)称为似然比的判决阈值,此判别称为贝叶斯判别。
例题:
假设某地发生地震事件
ω
1
\omega_1
ω1的概率为0.2,
P
(
ω
1
)
=
0.2
P(\omega_1)=0.2
P(ω1)=0.2,则不发生地震的概率
ω
2
\omega_2
ω2为0.8,
P
(
ω
2
)
=
0.8
P(\omega_2)=0.8
P(ω2)=0.8,已知地震通常与生物异常反应之间有一定的联系,生物是否发生异常这一结果以模式
x
x
x表示,有两种取值,包括异常和正常,假设地震前一周内发生生物异常的概率是0.6,
P
(
x
=
异常
∣
ω
1
)
=
0.6
P(x=异常|\omega_1)=0.6
P(x=异常∣ω1)=0.6,地震前一周生物正常的概率是0.4,
P
(
x
=
正常
∣
ω
1
)
=
0.4
P(x=正常|\omega_1)=0.4
P(x=正常∣ω1)=0.4,一周之内没有发生地震但是生物异常的概率是0.1,,
P
(
x
=
异常
∣
ω
2
)
=
0.1
P(x=异常|\omega_2)=0.1
P(x=异常∣ω2)=0.1,一周之内没有发生地震生物正常的概率是0.9,
P
(
x
=
正常
∣
ω
2
)
=
0.9
P(x=正常|\omega_2)=0.9
P(x=正常∣ω2)=0.9
求解:发生生物异常情况下一周之内发生地震的概率
P
(
ω
1
∣
x
=
异常
)
=
P
(
x
=
异常
∣
ω
1
)
P
(
ω
1
)
∑
i
=
1
2
P
(
x
=
异常
∣
ω
i
)
P
(
ω
i
)
=
P
(
x
=
异常
∣
ω
1
)
P
(
ω
1
)
P
(
x
=
异常
∣
ω
1
)
P
(
ω
1
)
+
P
(
x
=
异常
∣
ω
2
)
P
(
ω
2
)
=
0.6
×
0.2
0.6
×
0.2
+
0.1
×
0.8
=
0.6
似然比:
l
12
=
P
(
x
=
异常
∣
ω
1
)
P
(
x
=
异常
∣
ω
2
)
=
0.6
0.1
=
6
判决阈值:
θ
21
=
P
(
ω
2
)
P
(
ω
1
)
=
0.8
0.2
=
4
\begin{aligned} P(\omega_1|x=异常) &= \frac{P(x=异常|\omega_1)P(\omega_1)}{\sum_{i=1}^2P(x=异常|\omega_i)P(\omega_i)} \\ &= \frac{P(x=异常|\omega_1)P(\omega_1)}{P(x=异常|\omega_1)P(\omega_1) + P(x=异常|\omega_2)P(\omega_2) }\\ &= \frac{0.6 \times 0.2}{0.6 \times 0.2 + 0.1 \times 0.8} \\ &= 0.6 \end{aligned} \\ 似然比:l_{12} = \frac{P(x=异常|\omega_1)}{P(x=异常|\omega_2)}=\frac{0.6}{0.1}=6 \\ 判决阈值:\theta_{21}=\frac{P(\omega_2)}{P(\omega_1)}=\frac{0.8}{0.2}=4
P(ω1∣x=异常)=∑i=12P(x=异常∣ωi)P(ωi)P(x=异常∣ω1)P(ω1)=P(x=异常∣ω1)P(ω1)+P(x=异常∣ω2)P(ω2)P(x=异常∣ω1)P(ω1)=0.6×0.2+0.1×0.80.6×0.2=0.6似然比:l12=P(x=异常∣ω2)P(x=异常∣ω1)=0.10.6=6判决阈值:θ21=P(ω1)P(ω2)=0.20.8=4
贝叶斯最小风险判别
- 目的:考虑到某些类别的错误判断比另外一些类的错误判断风险更大,需要对贝叶斯判别做一些修正。
- M M M类分类问题的条件平均风险 r j ( x ) = ∑ i = 1 M L i j P ( ω i ∣ x ) r_j(x)=\sum_{i=1}^ML_{ij}P(\omega_i|x) rj(x)=∑i=1MLijP(ωi∣x)
- L i j L_{ij} Lij称为本应属于 ω i \omega_i ωi类的模式判别成属于 ω j \omega_j ωj类的是非代价,若 i = j i=j i=j即判别正确,得分, L i j L_{ij} Lij可以取负值或零,表示不失分,若 i ≠ j i\neq j i=j即判别错误,应该取正值。
- 分类器对每一个模式 x x x有 M M M种可能的类别可供选择,将 x x x指定为具有最小风险值的那一类,则这种分类器称为最小平均条件风险分类器
- 按照贝叶斯公式,平均条件风险可写成: r j ( x ) = 1 p ( x ) ∑ i = 1 M L i j P ( x ∣ ω i ) P ( ω i ) r_j(x)=\frac{1}{p(x)}\sum_{i=1}^{M}L_{ij}P(x|\omega_i)P(\omega_i) rj(x)=p(x)1∑i=1MLijP(x∣ωi)P(ωi),舍去 1 P ( x ) \frac{1}{P(x)} P(x)1这个公共项简化为 r j ( x ) = ∑ i = 1 M L i j P ( x ∣ ω i ) P ( ω i ) r_j(x)=\sum_{i=1}^{M}L_{ij}P(x|\omega_i)P(\omega_i) rj(x)=∑i=1MLijP(x∣ωi)P(ωi),这也是贝叶斯分类器,但是这个不是按错误概率最小作为标准,而是按平均条件风险作为标准。
两类的情况
M
=
2
M=2
M=2即全部的模式样本只有
ω
1
\omega_1
ω1和
ω
2
\omega_2
ω2两类,则平均风险可以写成:
当分类器将
x
x
x判别为
ω
1
\omega_1
ω1时:
r
1
(
x
)
=
L
11
P
(
x
∣
ω
1
)
P
(
ω
1
)
+
L
21
P
(
x
∣
ω
2
)
P
(
ω
2
)
r_1(x)=L_{11}P(x|\omega_1)P(\omega_1)+L_{21}P(x|\omega_2)P(\omega_2)
r1(x)=L11P(x∣ω1)P(ω1)+L21P(x∣ω2)P(ω2)
当分类器将
x
x
x判别为
ω
2
\omega_2
ω2时:
r
2
(
x
)
=
L
12
P
(
x
∣
ω
1
)
P
(
ω
1
)
+
L
22
P
(
x
∣
ω
2
)
P
(
ω
2
)
r_2(x)=L_{12}P(x|\omega_1)P(\omega_1)+L_{22}P(x|\omega_2)P(\omega_2)
r2(x)=L12P(x∣ω1)P(ω1)+L22P(x∣ω2)P(ω2)
若
r
1
(
x
)
<
r
2
(
x
)
r_1(x)\lt r_2(x)
r1(x)<r2(x),则
x
x
x被判定为属于
ω
1
\omega_1
ω1,此时:
L
11
P
(
x
∣
ω
1
)
P
(
ω
1
)
+
L
21
P
(
x
∣
ω
2
)
P
(
ω
2
)
<
L
12
P
(
x
∣
ω
1
)
P
(
ω
1
)
+
L
22
P
(
x
∣
ω
2
)
P
(
ω
2
)
L_{11}P(x|\omega_1)P(\omega_1)+L_{21}P(x|\omega_2)P(\omega_2) \lt L_{12}P(x|\omega_1)P(\omega_1)+L_{22}P(x|\omega_2)P(\omega_2)
L11P(x∣ω1)P(ω1)+L21P(x∣ω2)P(ω2)<L12P(x∣ω1)P(ω1)+L22P(x∣ω2)P(ω2)
即:
(
L
12
−
L
11
)
P
(
x
∣
ω
1
)
P
(
ω
1
)
>
(
L
21
−
L
22
)
P
(
x
∣
ω
2
)
P
(
ω
2
)
(L_{12}-L_{11})P(x|\omega_1)P(\omega_1) \gt (L_{21}-L_{22})P(x|\omega_2)P(\omega_2)
(L12−L11)P(x∣ω1)P(ω1)>(L21−L22)P(x∣ω2)P(ω2)
当
P
(
x
∣
ω
1
)
P
(
x
∣
ω
2
)
>
P
(
ω
2
)
P
(
ω
1
)
.
L
21
−
L
22
L
12
−
L
11
\frac{P(x|\omega_1)}{P(x|\omega_2)} \gt \frac{P(\omega_2)}{P(\omega_1)} . \frac{L_{21}-L_{22}}{L_{12}-L_{11}}
P(x∣ω2)P(x∣ω1)>P(ω1)P(ω2).L12−L11L21−L22
该式左边为似然比:
l
12
=
P
(
x
∣
ω
1
)
P
(
x
∣
ω
2
)
l_{12}=\frac{P(x|\omega_1)}{P(x|\omega_2)}
l12=P(x∣ω2)P(x∣ω1)
右边为阈值:
θ
2
1
=
P
(
ω
2
)
P
(
ω
1
)
.
L
21
−
L
22
L
12
−
L
11
\theta_21=\frac{P(\omega_2)}{P(\omega_1)} . \frac{L_{21}-L_{22}}{L_{12}-L_{11}}
θ21=P(ω1)P(ω2).L12−L11L21−L22
- 若 l 12 ( x ) > θ 21 l_{12}(x) \gt \theta_{21} l12(x)>θ21,则 x ∈ ω 1 x \in \omega_1 x∈ω1
- 若 l 12 ( x ) < θ 21 l_{12}(x) \lt \theta_{21} l12(x)<θ21,则 x ∈ ω 2 x \in \omega_2 x∈ω2
通常,当判别正确时,不失分,可选常数 L 11 = L 22 = 0 L_{11}=L_{22}=0 L11=L22=0;判别错误时,可选 L 12 = L 21 = 1 L_{12}=L_{21}=1 L12=L21=1,此时 θ 21 = P ( ω 2 ) P ( ω 1 ) \theta_{21}=\frac{P(\omega_2)}{P(\omega_1)} θ21=P(ω1)P(ω2)
- 例:一信号通过一受噪声干扰的信道,信道输入信号为0或1,噪声为高斯型,其均值为
μ
=
0
\mu=0
μ=0,方差为
σ
2
\sigma^2
σ2,信道输出为
x
x
x,试求最优的判别规则,从观察值
x
x
x的基础上判别它是0还是1,直观上可以看出,若
x
<
0.5
x \lt 0.5
x<0.5应该判为0,
x
>
0.5
x \gt 0.5
x>0.5应该判为1。用贝叶斯判别条件分析,设信号送0的先验概率为
P
(
0
)
P(0)
P(0),送1的先验概率为
P
(
1
)
P(1)
P(1)。
当输入信号为0时,受噪声为正态分布 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2)的干扰,其幅值大小的概率密度为:
P ( x ∣ ω 1 ) = 1 2 π σ e − x 2 2 σ 2 P(x|\omega_1)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{x^2}{2\sigma^2}} P(x∣ω1)=2πσ1e−2σ2x2
当输入信号为0时,其幅值大小的概率密度为:
P ( x ∣ ω 2 ) = 1 2 π σ e − ( x − 1 ) 2 2 σ 2 P(x|\omega_2)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-1)^2}{2\sigma^2}} P(x∣ω2)=2πσ1e−2σ2(x−1)2
则似然比为: l 12 = P ( x ∣ ω 1 ) P ( x ∣ ω 2 ) = e 1 − 2 x 2 σ 2 l_{12}=\frac{P(x|\omega_1)}{P(x|\omega_2)} = e^{\frac{1-2x}{2\sigma^2}} l12=P(x∣ω2)P(x∣ω1)=e2σ21−2x
若 l 12 > θ 21 l_{12} \gt \theta_{21} l12>θ21,即 e 1 − 2 x 2 σ 2 > θ 21 e^{\frac{1-2x}{2\sigma^2}} \gt \theta_{21} e2σ21−2x>θ21,则 x < 1 2 − σ 2 l n θ 21 x \lt \frac{1}{2} - \sigma^2 ln\theta_{21} x<21−σ2lnθ21,则 x ∈ ω 1 x \in \omega_1 x∈ω1,此时信号是0,即:
x < 1 2 − σ 2 l n ( L 21 L 12 . P ( 1 ) P ( 0 ) ) x \lt \frac{1}{2}-\sigma^2ln\left(\frac{L_{21}}{L_{12}}.\frac{P(1)}{P(0)}\right) x<21−σ2ln(L12L21.P(0)P(1))
若取 L 21 = L 21 = 1 , P ( 1 ) = P ( 0 ) L_{21}=L_{21}=1, P(1)=P(0) L21=L21=1,P(1)=P(0),则 x < 1 2 x \lt \frac{1}{2} x<21判为0
若无噪声干扰,即 σ 2 = 0 \sigma^2=0 σ2=0,则 x < 1 2 x \lt \frac{1}{2} x<21判为0
一般多类的情况
对于
M
M
M类情况,若
r
i
(
x
)
<
r
j
(
x
)
,
j
=
1
,
2
,
⋯
,
M
,
j
≠
i
r_i(x) \lt r_j(x), j = 1,2,\cdots,M,j\neq i
ri(x)<rj(x),j=1,2,⋯,M,j=i,则
x
∈
ω
1
x \in \omega_1
x∈ω1
L
L
L可如下取值,判对失分为0,判错失分为1记:
L
i
j
=
{
0
w
h
e
n
i
=
j
1
w
h
e
n
i
≠
j
L_{ij}= \begin{cases} 0 & when\ i = j \\ 1 & when\ i \neq j \end{cases}
Lij={01when i=jwhen i=j
则条件平均风险可写成:
r
j
(
x
)
=
∑
i
=
1
M
L
i
j
P
(
x
∣
ω
i
)
P
(
ω
i
)
=
L
1
j
P
(
x
∣
ω
1
)
P
(
ω
1
)
+
⋯
+
L
j
j
P
(
x
∣
ω
j
)
P
(
ω
j
)
+
⋯
+
L
M
j
P
(
x
∣
ω
M
)
P
(
ω
M
)
=
∑
i
=
1
M
P
(
x
∣
ω
i
)
P
(
ω
i
)
−
P
(
x
∣
ω
j
)
P
(
ω
j
)
=
P
(
x
)
−
P
(
x
∣
ω
j
)
P
(
ω
j
)
\begin{aligned} r_j(x) &= \sum_{i=1}^ML_{ij}P(x|\omega_i)P(\omega_i) \\ &= L_{1j}P(x|\omega_1)P(\omega_1) + \cdots + L_{jj}P(x|\omega_j)P(\omega_j) + \cdots + L_{Mj}P(x|\omega_M)P(\omega_M) \\ &= \sum_{i=1}^MP(x|\omega_i)P(\omega_i) - P(x|\omega_j)P(\omega_j) \\ &= P(x) - P(x|\omega_j)P(\omega_j) \end{aligned}
rj(x)=i=1∑MLijP(x∣ωi)P(ωi)=L1jP(x∣ω1)P(ω1)+⋯+LjjP(x∣ωj)P(ωj)+⋯+LMjP(x∣ωM)P(ωM)=i=1∑MP(x∣ωi)P(ωi)−P(x∣ωj)P(ωj)=P(x)−P(x∣ωj)P(ωj)
由
r
i
(
x
)
<
r
j
(
x
)
r_i(x) \lt r_j(x)
ri(x)<rj(x),有当
P
(
x
∣
ω
i
)
P
(
ω
i
)
>
P
(
x
∣
ω
j
)
P
(
ω
j
)
P(x|\omega_i)P(\omega_i) \gt P(x|\omega_j)P(\omega_j)
P(x∣ωi)P(ωi)>P(x∣ωj)P(ωj)时,
x
∈
ω
i
x \in \omega_i
x∈ωi,对应于判别函数为:取
d
i
(
x
)
=
P
(
x
∣
ω
i
)
P
(
ω
i
)
,
i
=
1
,
2
,
⋯
,
M
d_i(x)=P(x|\omega_i)P(\omega_i),i=1,2,\cdots,M
di(x)=P(x∣ωi)P(ωi),i=1,2,⋯,M,则对于全部
j
≠
i
j \neq i
j=i的值,若
d
i
(
x
)
>
d
j
(
x
)
d_i(x) \gt d_j(x)
di(x)>dj(x),则
x
∈
ω
i
x \in \omega_i
x∈ωi