这个小节的内容很少,因为自己数学水平实在太差,所以理解不到之处还请批评指正。
在分类任务中我们希望尽可能减少错误的分类,例如我们有一些病人的临床数据,希望通过这些临床数据对患者的诊断提供帮助,比如根据临床数据病人的疾病类型。我们希望根据每一个病人的临床数据
x
\boldsymbol{x}
x将其分到一个合适的疾病
C
k
\mathcal{C_k}
Ck上。如果把病人的临床数据
x
\boldsymbol{x}
x所在的空间切分为不同的区域
R
k
\mathcal{R_k}
Rk,这种区域就是决策区域,每种疾病对应一个决策区域,决策区域的边界叫做决策边界或者决策面。每个疾病的决策区域不一定是连续的,如果是二分类问题,如判定患者是否患有高血压(
C
1
\mathcal{C_1}
C1表示未患高血压,
C
2
\mathcal{C_2}
C2表示患有高血压),那么分类错误的概率就为:
p
(
m
i
s
t
a
k
e
)
=
p
(
x
∈
R
1
,
C
2
)
+
p
(
x
∈
R
2
,
C
1
)
=
∫
R
1
p
(
x
,
C
2
)
d
x
+
∫
R
2
p
(
x
,
C
1
)
d
x
\begin{aligned} p(mistake)&=p(\boldsymbol{x} \in \mathcal{R_1},\mathcal{C_2})+p(\boldsymbol{x} \in \mathcal{R_2},\mathcal{C_1})\\ &=\int_{\mathcal{R_1}}p(\boldsymbol{x},\mathcal{C_2})d\boldsymbol{x}+\int_{\mathcal{R_2}}p(\boldsymbol{x},\mathcal{C_1})d\boldsymbol{x} \end{aligned}
p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx
其中
x
\boldsymbol{x}
x表示患者的临床数据,显然为了有最小的错误分类,对
x
\boldsymbol{x}
x的分类结果应该让上式被积函数最小。我们只看
x
\boldsymbol{x}
x一个属性的情况,如通过BMI指数判定患者是否有高血压,令
x
x
x表示BMI指数,现在有一组BMI和血压的数据,红线以上的血压为高血压。
直观的感觉,我们可以通过下面一个绿线对其进行分割。这样只有5个患者被错误的分类。
那么我们选择的这条绿线到底合不合理,或者说具体的BMI我们应该选择几,才能使得分类错误最少呢?我对其理解是:将BMI与患有高血压和未患高血压的概率密度函数拟合出来,如:
现在我们随意找一个位置再进行分割,
发现错误部分的面积主要为红色和橙色区域,仔细观察发现绿线的移动并不影响橙色部分的面积,仅对红色部分面积有影响,显然最小错误分类的
x
x
x值应该取红线和蓝线的交叉点的值。
PRML笔记3-绪论中最小化错误分类率的理解
