PRML笔记3-绪论中最小化错误分类率的理解

文章讨论了在分类任务中如何减少错误分类,特别是在医疗诊断场景下。通过病人的临床数据,如BMI指数,来判断疾病(如高血压)。错误分类的概率由落在错误决策区域的样本概率决定。为了最小化错误,需要找到最佳的决策边界,这通常涉及拟合概率密度函数并寻找交叉点。文章举例说明了如何通过分析概率密度函数来优化分类效果。
摘要由CSDN通过智能技术生成

这个小节的内容很少,因为自己数学水平实在太差,所以理解不到之处还请批评指正。
在分类任务中我们希望尽可能减少错误的分类,例如我们有一些病人的临床数据,希望通过这些临床数据对患者的诊断提供帮助,比如根据临床数据病人的疾病类型。我们希望根据每一个病人的临床数据 x \boldsymbol{x} x将其分到一个合适的疾病 C k \mathcal{C_k} Ck上。如果把病人的临床数据 x \boldsymbol{x} x所在的空间切分为不同的区域 R k \mathcal{R_k} Rk,这种区域就是决策区域,每种疾病对应一个决策区域,决策区域的边界叫做决策边界或者决策面。每个疾病的决策区域不一定是连续的,如果是二分类问题,如判定患者是否患有高血压( C 1 \mathcal{C_1} C1表示未患高血压, C 2 \mathcal{C_2} C2表示患有高血压),那么分类错误的概率就为:
p ( m i s t a k e ) = p ( x ∈ R 1 , C 2 ) + p ( x ∈ R 2 , C 1 ) = ∫ R 1 p ( x , C 2 ) d x + ∫ R 2 p ( x , C 1 ) d x \begin{aligned} p(mistake)&=p(\boldsymbol{x} \in \mathcal{R_1},\mathcal{C_2})+p(\boldsymbol{x} \in \mathcal{R_2},\mathcal{C_1})\\ &=\int_{\mathcal{R_1}}p(\boldsymbol{x},\mathcal{C_2})d\boldsymbol{x}+\int_{\mathcal{R_2}}p(\boldsymbol{x},\mathcal{C_1})d\boldsymbol{x} \end{aligned} p(mistake)=p(xR1,C2)+p(xR2,C1)=R1p(x,C2)dx+R2p(x,C1)dx
其中 x \boldsymbol{x} x表示患者的临床数据,显然为了有最小的错误分类,对 x \boldsymbol{x} x的分类结果应该让上式被积函数最小。我们只看 x \boldsymbol{x} x一个属性的情况,如通过BMI指数判定患者是否有高血压,令 x x x表示BMI指数,现在有一组BMI和血压的数据,红线以上的血压为高血压。
在这里插入图片描述
直观的感觉,我们可以通过下面一个绿线对其进行分割。这样只有5个患者被错误的分类。
在这里插入图片描述
那么我们选择的这条绿线到底合不合理,或者说具体的BMI我们应该选择几,才能使得分类错误最少呢?我对其理解是:将BMI与患有高血压和未患高血压的概率密度函数拟合出来,如:
在这里插入图片描述
现在我们随意找一个位置再进行分割,
在这里插入图片描述
发现错误部分的面积主要为红色和橙色区域,仔细观察发现绿线的移动并不影响橙色部分的面积,仅对红色部分面积有影响,显然最小错误分类的 x x x值应该取红线和蓝线的交叉点的值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值