机器学习之常见的分类模型评估指标

weixin_59049646

已于 2024-04-15 21:19:30 修改

阅读量708

点赞数 28

文章标签：机器学习分类人工智能

于 2024-04-15 19:36:08 首次发布

本文链接：https://blog.csdn.net/weixin_59049646/article/details/137771602

版权

本文详细介绍了机器学习中的关键评估指标如精确率、召回率、准确率、错误率和F1函数，以及ROC曲线和PR曲线的概念、计算和应用。特别讨论了不同K值对ROC曲线的影响，并展示了KNN分类器在不同K值下的性能。

摘要由CSDN通过智能技术生成

一.机器学习分类评估模型指标

1 1.1精确率和召回率

1.2 准确率和错误率

1.3 F函数

二.ROC曲线和PR曲线

2.1 ROC曲线

2.1.1 概念

2.1.2 混淆矩阵

2.1.3 ROC曲线如何得到

2.1.4 ROC曲线作用和优点

2.2 PR曲线

2.2.1 PR曲线

2.2.2 PR曲线作用和优点

2.3 ROC曲线和PR曲线的不同

三. 不同K值下的ROC曲线

3.1 不同K值下的ROC曲线

一.机器学习分类评估模型指标：机器学习模型需要有量化的评估指标来评估哪些模型的效果更好。

1.精确率和召回率

2.准确率和错误率

3.F函数

4.ROC曲线

5.PR曲线

1.1精确率和召回率

混淆矩阵：

公式：

上述计算公式中的Positive与Negative是预测标签，True与false代表预测正误；

精确率和召回率主要用于二分类问题（从其公式推导也可看出），要注意，精确率和召回率是二分类指标，不适用多分类。

精确率：

精准率和准确率看上去有些类似，但是完全不同的两个概念。精准率代表对正样本结果中的预测准确程度，而准确率则代表整体的预测准确程度，既包括正样本，也包括负样本。

召回率:

召回率的应用场景：比如拿网贷违约率为例，相对好用户，我们更关心坏用户，不能错放过任何一个坏用户。因为如果我们过多的将坏用户当成好用户，这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额，造成严重偿失。召回率越高，代表实际坏用户被预测出来的概率越高，它的含义类似：宁可错杀一千，绝不放过一个。

1.2 准确率和错误率

准确率和错误率既可用于二分类也可用于多分类：

对二分类情况时候的计算公式

精确率是一个二分类指标，而准确率能应用于多分类，其计算公式为：
在这里插入图片描述

准确率：

虽然准确率可以判断总的正确率，但是在样本不平衡的情况下，并不能作为很好的指标来衡量结果。举个简单的例子，比如在一个总样本中，正样本占 90%，负样本占 10%，样本是严重不平衡的。对于这种情况，我们只需要将全部样本预测为正样本即可得到 90% 的高准确率，但实际上我们并没有很用心的分类，只是随便无脑一分而已。这就说明了：由于样本不平衡的问题，导致了得到的高准确率结果含有很大的水分。即如果样本不平衡，准确率就会失效。

错误率：

错误率是分类问题中一个直接的性能指标，表示分类器错误分类的样本比例。在使用错误率时，需要注意以下几点：

不平衡数据集：在类别分布不均衡的数据集中，错误率可能无法准确反映模型性能。

不考虑错误类型：错误率将所有类型的错误等同对待，这在某些场景下可能不合适。

数据噪声：错误率容易受到数据集中标签错误的噪声影响。

阈值调整：错误率不适合用于评估分类器的决策阈值调整。

多分类解释性：在多分类问题中，错误率可能不如其他指标直观。

模型比较：比较不同模型的错误率时，要确保评估基于相同或可比的数据集。

综合其他指标：单独使用错误率可能不够，应结合精确度、召回率、F1分数等其他指标来全面评估模型性能。

1.3 F函数：

F1函数是一个常用指标，F1值是精确率和召回率的调和均值，即
在这里插入图片描述

F值可泛化为对精确率和召回率赋不同权值进行加权调和：

二.ROC曲线和PR曲线

2.1 ROC曲线

2.1.1 概念

接受者操作特性曲线（receiver operating characteristic curve，简称ROC曲线），又称为感受性曲线（sensitivity curve）。接受者操作特性曲线就是以虚惊概率为横轴，击中概率为纵轴所组成的坐标图。因此，ROC曲线越靠近坐标的左上角越好。

2.1.2 混淆矩阵
对于一个二分类问题，它有四种情况：
如果一个实例是正类，它被分为正类，记为真正(True Positive)；
如果一个实例是正类，它被分为负类，记为假负(False Negative)；
如果一个实例是负类，它被分为正类，记为假正(False Positive)；
如果一个实例是负类，它被分为负类，记为真负(True Negative)。

在表格中可以表示为：

	真实1	真实0
预测1	TP	FP
预测0	FN	TN

由此我没可以引入两个新名词：
真正类率(True Positive Rate, TPR)，表示分类器所识别出的正实例占所有正类的比例，计算公式为：

另一个是假正类率(False Positive Rate, FPR)，表示分类器错认为正类的负实例占所有负类的比例，计算公式为：

2.1.3 ROC曲线如何得到

以疾病检测为例，这是一个有监督的二分类模型，模型对每个样本的预测结果为一个概率值，我们需要从中选取一个阈值来判断健康与否。
定好一个阈值之后，超过此阈值定义为患病，低于此阈值定义为健康，就可以得出混淆矩阵。如果我们将阈值减少0.1，真正类率(TPR)将会增高，相应的假正类率(FPR)也会提高，为了形象化这一变化，在此引入ROC，ROC曲线可以用于评价一个分类器。

ROC曲线（Receiver Operating Characteristic Curve）是反映分类器性能的一个工具，横坐标是假正例率（FPR），纵坐标是真正例率（TPR）。对于给定的分类器，每个不同的阈值（threshold）都会对应一个特定的TPR和FPR值，从而在ROC空间中对应一个点。

阈值最大时：只有最高的预测概率被认定为正类，此时真正的正例和假的正例都没有被捕捉到，即TP（True Positives）和FP（False Positives）都为0，对应的点在ROC空间的原点（0,0）。
阈值最小时：所有样本都被认定为正类，此时没有真正的负例和假的负例，即TN（True Negatives）和FN（False Negatives）都为0，对应的点在ROC空间的右上角（1,1）。

随着阈值逐渐增加，更多的样本被判定为负类，因此TP和FP的数量会减少，导致TPR和FPR的值也随之减小，ROC曲线上的点向坐标轴左下方移动。

如果我们不是预先设定一系列固定的阈值，而是考虑模型对所有样本预测的概率值，并将这些概率值从高到低排序，然后用每个概率值作为阈值进行判定，就能得到一系列混淆矩阵。对每一个混淆矩阵，我们计算相应的TPR和FPR，将这些点绘制在ROC空间中（以FPR为x轴，TPR为y轴），最终形成的曲线就是ROC曲线。

如果ROC曲线比较光滑，通常意味着模型没有严重的过拟合（overfitting），因为模型在不同的阈值下表现一致。AUC（Area Under the Curve）值表示ROC曲线下的面积，AUC值越大，表明模型的整体性能越好。理想分类器的AUC值为1，而纯随机分类器的AUC值为0.5。

2.1.4 ROC曲线作用和优点

ROC曲线是评估分类器性能的重要工具，它的作用和优点主要包括：

识别能力：ROC曲线可以展示在不同阈值下分类器的识别能力，即真正例率（TPR）与假正例率（FPR）之间的关系。这有助于我们理解分类器在区分正负样本方面的整体表现。
选择诊断界限值：通过ROC曲线，我们可以选择一个最佳的诊断界限值，即确定哪一个阈值最能使分类器的性能达到最优。曲线上最靠近左上角的点通常被认为是最佳临界点，因为它代表了最高的真正例率和最低的假正例率。
比较不同诊断方法：当存在多种诊断方法或分类器时，可以通过将它们的ROC曲线绘制在同一个坐标系中来直观地比较它们对疾病的识别能力。这有助于我们选择对于特定问题最有效的分类方法。
降低数据分布变化的影响：ROC曲线具有很好的稳定性，即使在测试集中正负样本的分布发生变化时，ROC曲线的形状也能够基本保持不变。这一点对于实际应用非常重要，因为在现实世界的数据集中，类别分布往往是不稳定且可能随时间变化的。

2.2 PR曲线

2.2.1 PR曲线

我们以召回率R为横轴、以精确率P为纵轴，能够画出P-R曲线，如下图：

从上图不难发现，precision与Recall的折中(trade off)，曲线越靠近右上角性能越好，曲线下的面积叫AP分数，能在一定程度上反应模型的精确率和召回率都很高的比例。但这个值不方便计算，综合考虑精度与召回率一般使用F1函数或者AUC值（因为ROC曲线很容易画，ROC曲线下的面积也比较容易计算）.
先看平滑不平滑，在看谁上谁下（同一测试集上），一般来说，上面的比下面的好（红线比黑线好）；
F1（计算公式略）当P和R接近就也越大，一般会画连接(0,0)和(1,1)的线，线和PRC重合的地方的F1是这条线最大的F1（光滑的情况下），此时的F1对于P-R曲线就好象AUC对于ROC一样。一个数字比一条线更方便调模型。

2.2.2 PR曲线作用和优点

评估不平衡数据集：在数据集中正负样本分布不均衡时，PR曲线能提供比ROC曲线更加准确的性能评估。因为PR曲线关注的是精确率（Precision）和召回率（Recall），而不是真正例率和假正例率。
关注少数类：当人们更关心少数类（如患病者、欺诈行为等）的识别时，PR曲线更为有用。因为它可以直观地显示出模型在识别少数类方面的性能。
评估模型的保守性与积极性：通过PR曲线，我们可以判断一个模型是更倾向于避免误报（更高的精确率），还是更倾向于捕捉所有可能的正例（更高的召回率）。这有助于我们根据实际需求调整模型的阈值。
适用于特定应用场景：在诸如医疗诊断、欺诈检测等领域，模型需要尽可能多地捕捉到所有相关案例，而不仅仅是区分能力最强的一部分。在这些情况下，PR曲线提供了更有针对性的性能指标。
辅助决策制定：在需要权衡精准率和召回率的应用中，PR曲线可以帮助决策者理解在不同操作阈值下的预期结果，从而做出更加明智的决策。

2.3 ROC曲线和PR曲线的不同

ROC曲线和PR曲线都是用于评估分类器性能的工具，但它们各自适用于不同的场景并有不同的表现方式。

首先，我们来理解ROC曲线。ROC曲线通过展示真正例率（TPR）与假正例率（FPR）之间的关系，帮助评估模型在二分类问题中的表现。这种曲线的一个优点是，即使在正负样本分布发生变化时，ROC曲线也能保持稳定。ROC曲线假设正负样本的先验概率相等，因此它通常适用于类别均衡的数据集。

而PR曲线则关注精确率（Precision）和召回率（Recall）。当数据集中正负样本分布不平衡时，PR曲线可以作为ROC曲线的一个替代工具。PR曲线特别适合于那些正样本比例远小于负样本比例的情况。在视觉上，一个好的模型在ROC图上的表现通常是偏左上角的，而在PR曲线中则是偏右上角的。

总的来说，ROC曲线和PR曲线都是评价分类模型性能的有效工具，但它们各自更适合不同的数据分布情况。在实际应用中，根据数据的特点选择最合适的评估方法是非常重要的。

三. 不同K值下的ROC曲线

3.1 不同K值下的ROC曲线

1.导入所需库：导入了numpy、make_classification、train_test_split、KNeighborsClassifier、roc_curve和auc等库。这些库用于生成模拟数据集、划分数据集、创建KNN分类器、计算ROC曲线和AUC值以及绘制图形等操作。

import numpy as np

from sklearn.datasets import make_classification

from sklearn.model_selection import train_test_split

from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import roc_curve, auc

import matplotlib.pyplot as plt

2.创建模拟的分类数据集：使用make_classification函数创建一个包含1000个样本和20个特征的模拟分类数据集。随机种子设置为42，以确保每次运行时生成相同的数据集。

X, y = make_classification(n_samples=1000, n_features=20, random_state=42)

3.划分数据集为训练集和测试集：使用train_test_split函数将数据集划分为训练集和测试集。测试集的大小为原始数据集的30%，即300个样本。随机种子也设置为42，以确保每次运行时划分相同的训练集和测试集。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

4.创建并训练KNN分类器：创建一个KNN分类器对象，设置邻居数为3。然后使用训练集对分类器进行训练。

knn = KNeighborsClassifier(n_neighbors=3)

knn.fit(X_train, y_train)

5.获取模型的概率分数：由于KNN分类器不直接输出概率，但我们可以使用predict_proba方法获取每个样本属于正类的概率分数。这里我们只关心正类的概率分数，所以取第二列的值（索引为1）。

y_scores = knn.predict_proba(X_test)[:, 1]

6.计算ROC曲线的FPR和TPR：使用roc_curve函数计算ROC曲线的假阳性率（FPR）和真阳性率（TPR）。

fpr, tpr, _ = roc_curve(y_test, y_scores)

7.计算ROC曲线下方的面积：使用auc函数计算ROC曲线下方的面积（AUC值），以评估分类器的性能。

roc_auc = auc(fpr, tpr)

plt.figure(figsize=(8, 6))

plt.plot(fpr, tpr, color='darkred', lw=2, label='ROC Curve (AUC = %0.2f)' % roc_auc)

plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--', label='Random Guess')

plt.xlabel('False Positive Rate')

plt.ylabel('True Positive Rate')

plt.xlim([0.0, 1.0])

plt.ylim([0.0, 1.05])

plt.title('Receiver Operating Characteristic Curve')

plt.legend(loc='lower right')

plt.grid(True)

plt.show()

代码展示：

运行结果：

当n_neighbors=3

当n_neighbors=5时：

当n_neighbors=8时：

当n_neighbors=30时：

通过绘制不同K值（n_neighbors）下的ROC曲线，我们可以看到分类器性能在不同阈值下的变化。理想情况下，我们希望ROC曲线越靠近左上角越好，这意味着在所有可能的阈值下，分类器都能保持较高的真正例率和较低的假正例率。

weixin_59049646

关注

28
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
机器学习之常见的分类模型评估指标

在视觉上，一个好的模型在ROC图上的表现通常是偏左上角的，而在PR曲线中则是偏右上角的。因此，ROC曲线越靠近坐标的左上角越好。从上图不难发现，precision与Recall的折中(trade off)，曲线越靠近右上角性能越好，曲线下的面积叫AP分数，能在一定程度上反应模型的精确率和召回率都很高的比例。F1（计算公式略）当P和R接近就也越大，一般会画连接(0,0)和(1,1)的线，线和PRC重合的地方的F1是这条线最大的F1（光滑的情况下），此时的F1对于P-R曲线就好象AUC对于ROC一样。
复制链接

扫一扫