怎么判断你的模型是好是坏？模型性能评估指标大全！（二）-CSDN博客

本文链接：https://blog.csdn.net/weixin_43843918/article/details/136724724

模型性能评估指标，大家一定不陌生！很多小伙伴们都说难，但是它真的很重要很重要很重要！它会对我们的模型有很多的指导，也会给我们真正做模型的时候提供一些指导性的思想，不然我们看到别人的东西只能跟着人家的思路走，不能有自己的想法，或者说没办法去”批判“他做得好还是不好！这多憋屈呀！来！咱学！给它学得透透的！

在之前的怎么判断你的模型是好是坏？模型性能评估指标大全！中，我们已经介绍了：

性能度量（performance measure），也就是性能评价指标，其实就是指衡量模型泛化能力的性价标准。我们在对比不同模型的能力时，使用不同的性能度量，往往会导致不同的评判结果。这就意味着模型的好坏其实是相对的，什么样的模型是好的，它其实不仅取决于算法和数据，还取决于任务需求。

并依次介绍了错误率（error rate）、精确度（accuracy）、查准率（precision，又叫准确率）、查全率（recall，又叫召回率）、 F1分数（F1 score）、**混淆矩阵（confusion matrix）**等，并通过举例的方式尽可能对其进行通俗易懂地解释，最后以 P-R 曲线收尾。那今天，我们就以大家最最最常见的 ROC 曲线开始，继续讲解性能度量的后半部分内容！

ROC 与 AUC

想象一下你是一个医生，你正在测试一种新的诊断方法来判断患者是否患有某种疾病。那么，ROC 曲线和 AUC 一定会是你在评估这种诊断方法的性能时超级常用的工具。我们接下来就为大家详细介绍一下这两个东西是什么及它们的应用场景。

ROC 的全称是受试者工作特征（Receiver Operating Characteristic）曲线，它是一种以灵敏度（True Positive Rate， $\frac{TP}{TP+FN}$ ，即正确诊断为患病的患者数量与实际患病总数的比率，也就是真正例率）为纵轴，以 1 - 特异性（False Positive Rate， $\frac{FP}{TN+FP}$ ，即错误诊断为患病的非患病者数量与实际非患病总数的比率，也就是假正例率）为横轴的图。

在二分类问题中，模型输出的结果通常是一个概率值，表示样本属于正类（例如患病）的概率。分类**阈值（threshold）**是一个界限值，用于将概率值转换为最终的分类标签。如果概率值大于等于分类阈值，则样本被判定为正类；如果概率值小于分类阈值，则样本被判定为负类。在使用 ROC 曲线进行性能评估时，我们会尝试不同的阈值，从而在 ROC 空间中得到一系列不同的真正例率（TPR）和假正例率（FPR）组合，进而绘制 ROC 曲线。

ROC 曲线中的每个点代表在不同阈值下诊断方法的性能，阈值用于判断患者是否患病。一条良好的 ROC 曲线通常弯曲向左上角，表示在保持高的灵敏度的同时，较低的误诊率。如果曲线几乎处于对角线附近，则说明诊断方法的效果不如预期，无法很好地区分患者和非患者。

**AUC（Area Under the Curve）**是 ROC 曲线下的面积，也就是指 ROC 曲线与 x 轴之间的区域面积，它是一个介于 0 和 1 之间的值。AUC 反映了诊断方法在各种阈值下的综合性能。AUC 值越接近 1，表示诊断方法越优秀，能够更准确地区分患者和非患者。而 AUC 值越接近 0.5，则说明诊断方法的效果接近于随机猜测，没有明显优势，这个时候 ROC 曲线接近对角线。

对于给定的 ROC 曲线，可以通过对曲线下的面积进行数值积分来计算 AUC 值。但是，通常情况下，我们使用离散的方法来近似计算 AUC，即将 ROC 曲线近似为一系列小的梯形，然后计算这些梯形的面积之和。

$AUC=\frac {1}{2} \quad \sum_{i=1}^{m-1}(x_{i+1}-x_i)\cdot(y_i+y_{i+1})$

形式化地看，AUC 其实考虑的是样本预测的排序质量，所以它与排序误差有紧密联系。由此我们可以引入一个概念 —— 排序损失（Ranking Loss），它是用于衡量模型预测排序的一个指标。

假设我们有一个二分类任务，有一组样本数据，每个样本有一个真实的标签（1 表示正例，0 表示负例），同时我们的模型输出了一个预测概率值，表示样本属于正例的可能性。

现在，我们希望模型的预测概率能够正确地排序，即将真实的正例排在预测概率最高的位置，将真实的负例排在预测概率最低的位置。排序损失就是用来衡量这种排序质量的指标。

假设我们有 N 个样本，用 $y_i$ 表示第 i 个样本的真实标签（0 或 1），用 $p_i$ 表示模型对第 i 个样本的预测概率。为了衡量排序的质量，我们可以定义一个排序损失函数。

一种常用的排序损失函数是 Ranking Loss，也称为 Hinge Loss。

公式如下（经典教材西瓜书上不是这个式子，个人认为这个更直观，有助于大家理解，就采用这个来解释啦，其实表达的含义都大差不差，不用担心！）：
$\frac{1}{N(N-1)} \sum_{i=1}^{N} \sum_{j \neq i} L(y_i, y_j, p_i, p_j)$

其中， $L(y_i, y_j, p_i, p_j)$ 是一个损失函数，它的计算方式如下：

$L(y_i, y_j, p_i, p_j) = \begin{cases} 1, & \text{if } y_i = 1, y_j = 0, p_i < p_j \\ 0, & \text{otherwise} \end{cases}$

这个损失函数的含义是，如果第 i 个样本是正例（ $y_i = 1$ ），而第 j 个样本是负例（ $y_j = 0$ ），并且模型对它们的预测概率满足 $p_i < p_j$ ，即第 i 个样本的预测概率比第 j 个样本的预测概率低，那么就会产生一个损失值 1。否则，如果模型的排序是正确的，损失值为 0。

直观地解释，如果排名损失为 0，意味着模型正确地将所有的正例排在了负例前面，没有出现错误的排序。而如果排名损失大于 0，说明模型的排序出现了错误，正例没有排在负例前面。

通过最小化排序损失，我们希望模型能够更好地学习样本的排序，也就是更准确地将真实的正例排在预测概率较高的位置，将真实的负例排在预测概率较低的位置。这有助于提升模型的性能和泛化能力，特别在排序相关的任务中，如推荐系统、搜索引擎排序等。

我们可以按照模型的预测概率值将样本进行排序，然后通过不同的截断点（cut point，也就是前面提到的分类阈值）对排序进行截断，从而得到不同的真正例率和假正例率。从上面的介绍中我们可以知道，排序损失可以用于评估模型排序的质量，也就是指它可以帮助我们判断模型是否能够将正例排在负例前面。

所以，当你评估这个新的诊断方法时，通过观察 ROC 曲线的形状和计算 AUC 值，你就可以得出关于该方法性能的直观和定量的判断。更靠近左上角的曲线和较高的 AUC 值意味着这个诊断方法可能是一个很有希望的候选，而接近对角线和较低的 AUC 值则提示需要进一步改进或者尝试其他方法。

我们可以再举个形象的例子来帮助大家更好地理解 AUC！

想象你是一个竞赛选手，你需要在一群人中区分谁是领导者（正例）谁是追随者（负例）。你的任务是根据人们的身高（模型的输出概率值）来排名他们，你希望将领导者排在追随者前面。AUC 就是评估你排名的好坏。如果你完美地把领导者都排在了追随者前面，那么你的AUC 值就是 1。如果你的排名是随机的，无法分辨谁是领导者谁是追随者，那么你的AUC值就是 0.5。如果你的排名比随机好一点但仍然有错误，那么你的 AUC 值会介于 0.5 和 1 之间。所以 AUC 值越高，你的排名就越好，模型的性能就越优秀。

代价敏感错误率与代价曲线

在二分类任务中，**代价矩阵（cost matrix）**是一种考虑不同分类错误所带来不同代价的工具。在现实世界的很多场景中，不同类型的分类错误可能会导致不同的后果或代价。例如，在医学诊断中，将一个患者误诊为健康可能会导致严重后果，而将一个健康人误诊为患者可能只需要重新检查。为了在模型训练过程中更好地应对不同错误代价，我们可以引入代价矩阵来指定不同类型错误的相对权重。

想象你是一个士兵，需要用机器学习模型来判断一个区域是否含有敌人。但是，你知道在这个任务中，有两种错误类型：一种是“误判敌人”，你认为是敌人，实际上是友军，这会导致友军受伤；另一种是“误判友军”，你认为是友军，实际上是敌人，这可能导致你被敌军攻击。为了降低这些错误造成的代价，你决定使用代价矩阵来调整模型的学习策略。

代价矩阵：
代价矩阵是一个 2x2 的矩阵，表示不同类型错误的代价。一般来说，它的形式如下：

$\begin{bmatrix} c_{00} & c_{01} \\ c_{10} & c_{11} \end{bmatrix}$

其中：

$c_{00}$ 代表将负例（例如友军）判定为负例（正确分类）的代价（或损失）；
$c_{01}$ 代表将负例（例如友军）判定为正例（错误分类）的代价；
$c_{10}$ 代表将正例（例如敌人）判定为负例（错误分类）的代价；
$c_{11}$ 代表将正例（例如敌人）判定为正例（正确分类）的代价。

在考虑了代价矩阵的情况下，我们需要重新定义错误率。由此引入代价敏感（cost-sensitive）错误率，它是一种根据代价矩阵计算的错误率。它不仅考虑了错误的数量，还考虑了不同类型错误的代价。

我们将上述代价矩阵中的第 0 类作为正例，第 1 类作为反类，使 $D^+$ 与 $D^-$ 分别代表样本集 $D$ 的正例子集和反例子集，则代价敏感错误率公式如下：

$E(f;D;cost)=\frac1{m}({\underset{x_i\in D^+}{\Sigma}}\parallel(f(x_i)\ne y_i)\times c_{01}+{\underset{x_i\in D^-}{\Sigma}}\parallel(f(x_i)\ne y_i)\times c_{10})$