PRML笔记3-绪论中最小化错误分类率的理解

老炉传说

于 2023-02-25 10:52:50 发布

阅读量451

点赞数

分类专栏：机器学习文章标签：分类机器学习算法

本文链接：https://blog.csdn.net/zhuzheqing/article/details/129207019

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章讨论了在分类任务中如何减少错误分类，特别是在医疗诊断场景下。通过病人的临床数据，如BMI指数，来判断疾病（如高血压）。错误分类的概率由落在错误决策区域的样本概率决定。为了最小化错误，需要找到最佳的决策边界，这通常涉及拟合概率密度函数并寻找交叉点。文章举例说明了如何通过分析概率密度函数来优化分类效果。

摘要由CSDN通过智能技术生成

这个小节的内容很少，因为自己数学水平实在太差，所以理解不到之处还请批评指正。
在分类任务中我们希望尽可能减少错误的分类，例如我们有一些病人的临床数据，希望通过这些临床数据对患者的诊断提供帮助，比如根据临床数据病人的疾病类型。我们希望根据每一个病人的临床数据 $\boldsymbol{x}$ 将其分到一个合适的疾病 $\mathcal{C_k}$ 上。如果把病人的临床数据 $\boldsymbol{x}$ 所在的空间切分为不同的区域 $\mathcal{R_k}$ ，这种区域就是决策区域，每种疾病对应一个决策区域，决策区域的边界叫做决策边界或者决策面。每个疾病的决策区域不一定是连续的，如果是二分类问题，如判定患者是否患有高血压（ $\mathcal{C_1}$ 表示未患高血压， $\mathcal{C_2}$ 表示患有高血压），那么分类错误的概率就为：
$\begin{aligned} p(mistake)&=p(\boldsymbol{x} \in \mathcal{R_1},\mathcal{C_2})+p(\boldsymbol{x} \in \mathcal{R_2},\mathcal{C_1})\\ &=\int_{\mathcal{R_1}}p(\boldsymbol{x},\mathcal{C_2})d\boldsymbol{x}+\int_{\mathcal{R_2}}p(\boldsymbol{x},\mathcal{C_1})d\boldsymbol{x} \end{aligned}$
其中 $\boldsymbol{x}$ 表示患者的临床数据，显然为了有最小的错误分类，对 $\boldsymbol{x}$ 的分类结果应该让上式被积函数最小。我们只看 $\boldsymbol{x}$ 一个属性的情况，如通过BMI指数判定患者是否有高血压，令 $x$ 表示BMI指数，现在有一组BMI和血压的数据，红线以上的血压为高血压。
在这里插入图片描述
直观的感觉，我们可以通过下面一个绿线对其进行分割。这样只有5个患者被错误的分类。

那么我们选择的这条绿线到底合不合理，或者说具体的BMI我们应该选择几，才能使得分类错误最少呢？我对其理解是：将BMI与患有高血压和未患高血压的概率密度函数拟合出来，如：
在这里插入图片描述
现在我们随意找一个位置再进行分割，

发现错误部分的面积主要为红色和橙色区域，仔细观察发现绿线的移动并不影响橙色部分的面积，仅对红色部分面积有影响，显然最小错误分类的 $x$ 值应该取红线和蓝线的交叉点的值。