分类模型的可视化评分技术

最新推荐文章于 2023-10-23 20:52:08 发布

总写bug的程序员

最新推荐文章于 2023-10-23 20:52:08 发布

阅读量1.6k

点赞数 2

分类专栏：机器学习文章标签： java big data 机器学习数据可视化深度学习

原文链接：https://www.knime.com/blog/visual-scoring-techniques-for-classification-models

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

准确度统计数据（例如整体准确度）量化了机器学习模型在没有任何对照参考（例如随机猜测或现有模型）的新数据上的预期性能。

这就是为什么我们还需要可视化模型评估 - 或评分 - 技术来在更广泛的背景下显示模型性能：针对不同的分类阈值，与其他模型相比，以及从资源使用的角度来看。在本文中，我们将解释如何使用 ROC 曲线、提升图和累积增益图评估分类模型。

用例：流失预测模型

我们将通过用于流失预测的随机森林模型（100 棵树）演示视觉模型评估技术的实用性。

我们使用包含 3333 名电信客户的数据集，包括他们的合同数据和电话使用情况，可在GitHub 上获得。目标列“流失？” 显示客户是否流失 ( True ) 或不流失( False )。483 名客户 (14%) 流失，2850 名客户 (86%) 未流失。

模型的精度统计如图1所示。

总体准确度为大约94％，这意味着94每100个客户在测试数据得到了正确的类预测为客户流失=真或流失=假。

True类的灵敏度值约为 59% 。这意味着每 10 个流失的客户中约有 6 个被正确预测为流失，而其余 4 个被错误预测为不流失。

99% 左右的特异性值表明几乎所有没有流失的客户都被正确分类。分类模型的视觉评分技术

在这里插入图片描述
图 1. 用于流失预测的随机森林模型的混淆矩阵、类别统计和整体准确度统计

比较不同分类阈值的性能

准确度统计是根据实际和预测的目标类别计算的。预测类别（此处为True和False）基于模型预测的类别概率（或分数），范围在 0 和 1 之间。在二元分类问题中，模型输出两个概率，每个类别一个。默认情况下，概率最高的类别决定预测类别，这在二元分类问题中意味着概率高于 0.5 的类别被预测。但是，有时不同的分类阈值可以带来更好的性能。如果是这种情况，我们可以在 ROC 曲线中找到它。

ROC曲线

的ROC曲线（接收操作员特性曲线）绘制用于改变使用两个指标分类阈值的模型的性能：在x轴的假阳性率和在y轴上的真阳性率。

在二元分类任务中，目标类之一被任意假设为正类，而另一个类成为负类。在我们的流失预测问题中，我们选择True作为正类，False作为负类。

真正性 (TP)、假反性 (FN)、假正性 (FP) 和真反性 (TN) 的数量，如图 1 中的混淆矩阵所示，用于计算假正性率和真正性率.

假正性率
在这里插入图片描述
衡量未流失但被错误预测为流失的客户比例。这等于1-specificity。

真正性率
在这里插入图片描述
衡量流失并正确预测流失的客户比例。这等于灵敏度。

ROC 曲线左下角的第一个点表示使用最大阈值 1.0获得的假正性率 (FPR) 和真正性率 (TPR) 。有了这个阈值，所有概率P(churn=True) > 1.0 的客户都将被预测为流失，即没有。预计没有客户会正确或错误地流失，因此 FPR 和 TPR 都是 0.0。

ROC 曲线中的第二个点是通过减小阈值来绘制的，例如减小 0.1。现在所有P(churn=True) > 0.9 的客户都将被预测为流失。阈值仍然很高，但现在可能会预测一些客户流失，因此会产生小的非零值 TPR 或 FPR。因此，该点将位于靠近前一点的 ROC 曲线中。

第三个点是通过进一步降低阈值来绘制的，依此类推，直到我们到达为最小分类阈值 0.0绘制的曲线中的最后一个点。使用此阈值，所有客户都被正确或错误地分配到正类True，因此 TPR 和 FPR 都是 1.0。

一个完美的模型会产生 TPR=1.0 和 FPR=0.0。相反，随机分类器总是将相同数量的正确和错误预测归入正类，这对应于 FPR=TPR 的黑色对角线。这条线在每条 ROC 曲线中报告，作为最差可能模型的参考。

请注意，模型当然可能比随机猜测的表现更差，但这可能是数据科学家的错误而不是模型的错误！采取与模型决策相反的方法来实施性能更好的解决方案就足够了。

图 2 显示了 ROC 曲线，为用于流失预测的随机森林模型绘制。注意对应于随机猜测的黑线。
在这里插入图片描述
图 2. ROC 曲线显示了从 0 到 1 的所有可能分类阈值的 x 轴上的假正性率和 y 轴上的真正性率

模型的最佳分类阈值尽可能靠近左上角——TPR=1.0 和 FPR=0.0——被完美模型占据。该最佳点与 (0.0, 1.0) 的切线最接近。有了这个最佳分类阈值，我们每个真阳性的误报最少。我们的示例模型平均预测
在这里插入图片描述
当我们使用最佳分类阈值时，每个假阳性的真阳性，如图 2 所示。

如果我们将这些数字与图 1 中的类别统计数据进行比较，我们可以看到，在优化分类阈值后，灵敏度从 59% 提高到 85%，而特异性从 99% 降低到 100%，仅略微下降—— 5% = 95%。

比较多个模型

ROC 曲线也可用于比较模型。让我们为相同的流失预测任务训练另一个模型，即决策树，并将其性能与随机森林模型进行比较。

图 3 显示了同一视图中的两条 ROC 曲线。蓝色曲线用于随机森林模型，橙色曲线用于决策树。靠近左上角的曲线，在这种情况下是随机森林模型的蓝色曲线，意味着更好的性能。该视图还在右下角显示了两个模型的曲线下面积 (AuC) 统计数据。它测量每条 ROC 曲线下的面积，并允许在性能之间进行更精细的比较。

在这里插入图片描述
图 3. 用于流失预测的两个模型的 ROC 曲线 - 随机森林和决策树。到达更接近左上角并具有更大 AuC 统计数据的模型表现更好。

使用模型节省资源

除了获得准确的预测外，我们还可以通过模型节省资源。在我们的流失预测示例中，某种动作遵循预测，并且该动作需要资源，例如减少收入或增加时间投入。模型可以帮助我们更有效地使用资源：应用更少的操作，但仍能覆盖更多可能流失的客户。

在提升和累积收益图表比较对正确的预测资源使用情况。

提升图

提升图比较了基于模型预测提取的样本与随机样本中的目标客户数量（这里是流失的客户）。

图 4 显示了随机森林模型的提升图。x 轴显示了根据预测的正类概率从最高到最低排序的数据的每个十分位数。例如，如果我们的数据中有 100 个客户，第一个十分位数包含 10 个预测正类概率最高的客户，即最有可能流失的 10 个客户。在第二个十分位数中，我们还有其他 10 个客户，其概率低于前 10 个客户，但高于其余 80 个客户。第 10 个十分位数包含 10 个概率最低的客户；10 个最不可能流失的客户。

累积提升线（蓝线）显示的提升是从 x 轴上显示的有序数据与随机样本中抽取的样本中达到的目标客户的比率。第一个十分位数的升力约为 6。由于原始数据中有 14% 的客户流失，因此随机样本中到达目标客户的概率为 14%。如果我们从 100 个客户中随机抽取 10 个客户，我们预计将达到 0.1410=1.4 个目标客户。如果我们从订购的数据中抽取 10 个第一批客户，我们预计会达到 6 倍，即 61.4 = 8.4 个目标客户。如果我们将样本量进一步增加 10%，累积提升大约为 4。我们现在将在随机样本中达到 0.1420 = 2.8 个目标客户，在订购数据的样本中达到 42.8 = 11.2 个目标客户。我们采样的数据越多，通过随机抽样也能接触到更多的目标客户。这解释了为什么累积提升和基线（绿线）之间的差异向十分之一减小。

升力线（红线）分别显示每个十分位数的升力。前两个十分位数的升力高于基线，从第三个十分位数开始低于基线。这意味着如果我们从 100 个客户中抽取第一个十分位数，我们预计会有 61.4 = 8.4 个目标客户。如果我们对第二个十分位数而不是第一个十分位数进行抽样，我们预计会有 21.4 = 2.8 个目标客户。如果我们对第 3 个到第 10 个十分位数中的任何一个进行抽样，我们预计最多有 0.25*1.4=0.35 个目标客户，因为在这 80% 的数据中，提升率保持在 0 到 0.25 之间的非常低的水平。
在这里插入图片描述
图 4. 提升图显示了基于模型预测绘制的样本与随机样本中达到的目标客户的比率

累积增益图表

累积收益图表显示了可以使用哪种样本量达到目标客户的比例。与提升图类似，累积增益图显示按 x 轴上的正类概率排序的数据。在 y 轴上，它显示了达到的目标客户的比例。
在这里插入图片描述
图 5 显示了随机森林模型的累积增益图。如果我们遵循曲线，我们可以看到，如果我们只抽取 10% 的客户，即概率最高的客户（x 轴），我们预计会覆盖所有流失客户（y 轴）的 60% 左右。如果我们对 20% 的客户（同样是概率最高的客户）进行抽样，我们预计会覆盖所有流失客户的 80% 以上。该点也与左上角的切线最近。有了这个数量的抽样客户，到达一个目标客户所需的平均样本量是最低的。

分类模型的视觉评分技术
图 5. 累积增益图表显示当我们联系 10%、20%、……、100% 的按正类概率订购的客户时，我们接触到的目标客户比例

可视化模型评估技术 - 总结

表 1 收集了上述技术并总结了它们对模型性能的报告。这些视觉技术补充了准确度统计数据，因为它们显示了最佳分类阈值，将性能与随机猜测进行比较，在一个视图中比较多个模型，并指示最佳样本大小和质量。

ROC 曲线显示了跨不同分类阈值的性能，将性能与随机猜测进行了比较，还比较了多个模型的性能。提升图和累积增益图显示该模型是否使我们能够投入更少的资源但仍能达到预期的结果。

这些视觉技术补充但不取代准确度统计。对于全面的模型评估，最好同时查看两者。
在这里插入图片描述
表 1. 分类模型的视觉评估技术总结

提示与技巧

KNIME Analytics Platform 提供了一个Binary Classification Inspector节点，可用于比较多个模型的准确率统计和 ROC 曲线，并找到最佳分类阈值。其交互式视图（图 6）显示：

整体准确性和类别统计数据的条形图

ROC曲线

混淆矩阵

正类概率的分布

分类阈值的滑块小部件

分类模型的视觉评分技术

在这里插入图片描述

图 6. 二元分类检查器节点的交互式视图在一个视图中为一个或多个分类模型显示准确性统计数据、ROC 曲线、混淆矩阵和正类概率分布的条形图。当滑块小部件用于调整分类阈值时，所有视图都将更新。

Binary Classification Inspector 节点视图的顶部显示了准确性统计的条形图和 ROC 曲线。每个模型都以不同的颜色显示，此处为随机森林模型为绿色，决策树为蓝色。我们可以通过单击彩色条选择其中一个模型进行更详细的检查。我们在图 6 中选择了随机森林模型。视图的底部激活并显示了所选模型的混淆矩阵和正类概率的分布。分布图中的紫色和绿色线分别显示了两个目标类别的每个预测概率的客户数量。橙色垂直线显示当前分类阈值。

分类阈值默认为 0.5。使用阈值滑块小部件，我们可以更改此值：向左更改为零或向右更改为 1。当我们这样做时，视图中的所有其他图表都会根据新的分类阈值自动调整。例如，当我们将其向左移动时，ROC 曲线中的菱形向右移动。当菱形达到最佳阈值点时，我们停止移动阈值，在本例中为 0.256，如图 6 所示。这是随机森林模型的最佳分类阈值。与默认的 0.5 有很大不同！

本文介绍的二元分类检查器视图和视觉模型评估技术在“分类模型的可视化评分技术”工作流中实现（图 7）。您可以从 KNIME Hub 免费检查和下载它。
在这里插入图片描述