机器学习——常见的分类模型评估指标，ROC曲线和PR曲线分析

栀沫-x

已于 2024-04-16 16:05:25 修改

阅读量1.2k

点赞数 7

文章标签：机器学习分类人工智能

于 2024-04-16 15:59:17 首次发布

本文链接：https://blog.csdn.net/weixin_74731967/article/details/137808392

版权

一．分类模型评估简介

二．常见的分类模型评估指标介绍

1.混淆矩阵：用于展示分类器分类结果的统计表格

3.1 ROC曲线分析使用逻辑回归的分类器

3.2 运行结果

3.3 不同k值下的ROC曲线

五.实验总结

一．分类模型评估简介

在机器学习领域，评估分类模型的性能是至关重要的一步，它可以帮助我们了解模型的准确性和泛化能力。

在分类问题中，准确度（Accuracy）、精确率（Precision）、召回率（Recall）和F1分数是最为常用的评估指标。

二．常见的分类模型评估指标介绍

1.混淆矩阵：用于展示分类器分类结果的统计表格

（1）混淆矩阵是监督学习中的一种用于评估分类模型性能的可视化工具，主要用于模型的分类结果和实例的真实信息的比较。

（2）使用混淆矩阵的好处在于它能够提供一种直观的方式来理解模型在各个类别上的表现，尤其是在类别不平衡的情况下。例如，如果一个模型在少数类上的召回率很低，即使整体准确率很高，这也可能意味着模型在实际应用中的效果不佳。

（3）在二分类问题中，混淆矩阵通常是一个2x2的表格，用于显示模型预测的正类（通常标记为“1”或正例）和负类（通常标记为“0”或负例）与实际的正类和负类之间的关系。下面是混淆矩阵的基本形式：

- TP（True Positives）：真正例，即实际为正类且被正确预测为正类的样本数量。

- FN（False Negatives）：假负例，即实际为正类但被错误预测为负类的样本数量。

- FP（False Positives）：假正例，即实际为负类但被错误预测为正类的样本数量。

- TN（True Negatives）：真负例，即实际为负类且被正确预测为负类的样本数量。

这些指标可以用来计算各种性能度量，如准确率（Accuracy）、精确率（Precision）、召回率（Recall）以及F1分数（F1 Score）等。

（4）混淆矩阵不仅能够帮助我们识别分类模型可能存在的问题，还能够帮助我们选择合适的模型评估指标，以便更好地优化和调整模型。

2.准确率（Accuracy）

准确率是所有正确预测的比例；

这是最直观的性能评价指标，它表示分类正确的样本数占总样本数的比例。然而，它在数据不平衡时可能不是一个好的指标。

$Accuracy = (TP+TN)/(TP+FN+FP+TN)$

3.精确率（Precision）

精确率是指所有被预测为正类的样本中，真正属于正类的样本所占的比例。它关注的是模型预测的正类中有多少是真正的正类。

$Precision = TP/(TP+FP)$

4.召回率（recall）

召回率也称为敏感度或真正率，它表示所有实际为正类的样本中，被模型正确预测为正类的样本所占的比例。召回率高意味着模型能够找到大部分的正类样本。

$Recall = TP/(TP+FN)$

5.F1-score

主要用于评估模型的稳健性

精确率和召回率的调和平均数，F值是精确率和召回率的调和值，更接近于两个数较小的那个，所以精确率和召回率接近时，F值最大。很多推荐系统的评测指标就是用F值的。

$2/F1 = 1/Precision + 1/Recall$

三．ROC曲线和PR曲线

3.1 ROC曲线

ROC曲线，全称为受试者工作特征曲线（Receiver Operating Characteristic Curve），最初应用于军事领域，现在广泛应用于医学和其他领域，用于评价一个分类模型预测的准确性。

ROC曲线描绘了不同阈值下的真正率和假正率之间的关系。AUC（Area Under the Curve）是ROC曲线下的面积，用于量化模型的整体性能，越接近1表示性能越好。ROC曲线的优点是它综合考虑了真正例率（灵敏度）和假正例率（1-特异度），可以为确定最佳临界值提供依据。

3.2 PR曲线

即精确率-召回率曲线（Precision-Recall Curve），与ROC曲线类似，P-R曲线也是在不同阈值下绘制的，但它关注的是精确率和召回率之间的关系。在处理类别不平衡的数据时特别有用，尤其是在正样本数量远小于负样本数量的情况下。与ROC曲线不同，PR曲线更加关注于正样本的识别能力，因为在某些应用中，我们更关心将少数类的正样本正确识别出来。

3.3 ROC曲线和PR曲线对比

ROC曲线和PR曲线的主要差异包括：

1. 关注点不同：ROC曲线平等对待正负样本，而PR曲线则侧重于正样本。

2. 适用数据不同：ROC曲线适用于类别均衡的数据集，PR曲线更适合类别不平衡的数据集。

3. 先验概率不同：ROC曲线假设正负样本的先验概率相等，而PR曲线假设正样本的先验概率大于负样本。

ROC曲线和PR曲线都是衡量分类器性能的有效工具，但它们各自适用于不同的情境。在实际应用中，应根据具体的数据特性和需求选择合适的评估曲线。

四．实现

3.1 ROC曲线分析使用逻辑回归的分类器

Python代码实现

import numpy as np
from sklearn.datasets import make_classification
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt

# 生成模拟数据
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 设置不同的K值
k_values = [2, 4, 6, 8, 10]

# 绘制ROC曲线
plt.figure()
for k in k_values:
    # 创建KNN分类器
    clf = KNeighborsClassifier(n_neighbors=k)
    
    # 训练模型
    clf.fit(X_train, y_train)
    
    # 预测概率
    y_pred_proba = clf.predict_proba(X_test)[:, 1]
    
    # 计算ROC曲线
    fpr, tpr, _ = roc_curve(y_test, y_pred_proba)
    roc_auc = auc(fpr, tpr)
    
    # 绘制ROC曲线
    plt.plot(fpr, tpr, label=f'K={k}, AUC={roc_auc:.2f}')

# 设置图例和坐标轴标签
plt.plot([0, 1], [0, 1], color='navy', linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve with KNN Classifier')
plt.legend(loc="lower right")

# 显示图像
plt.show()

3.2 运行结果

3.3 不同k值下的ROC曲线

通过变动k值（代表不同的阈值），可以观察到ROC曲线的变化。理想情况下，希望ROC曲线尽可能靠近左上角，这意味着模型能够在较低的假正率下保持较高的真正率。

本实验中，通过绘制不同k值下的ROC曲线进行比较发现随着k值的增大，ROC曲线往往趋向于直线y=x，表示模型的性能逐渐变差。当k值适中时，ROC曲线会在某个区域展现出较好的区分能力，表明存在一个合适的阈值使得模型能够在保持低误报率的同时，有效识别出正类样本。

五.实验总结

在选择评估指标时，需要考虑数据的具体情况和模型的应用背景。例如，在处理不平衡数据集时，单纯的准确率可能会产生误导，此时可能需要更多地依赖精确率、召回率和F1分数等指标。而在一些应用场景中，比如疾病诊断，召回率的重要性可能会高于精确率，因为漏掉任何一个真正病例都可能带来严重后果。

总的来说，评估分类模型时，通常会结合多个指标来全面理解模型的性能，而不是依赖于单一指标。这样可以从不同角度分析模型的优势和不足，从而做出更加合理的判断和决策。

栀沫-x

关注

7
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
机器学习——常见的分类模型评估指标，ROC曲线和PR曲线分析

在机器学习领域，评估分类模型的性能是至关重要的一步，它可以帮助我们了解模型的准确性和泛化能力。在分类问题中，准确度（Accuracy）、精确率（Precision）、召回率（Recall）和F1分数是最为常用的评估指标。（1）混淆矩阵是监督学习中的一种用于评估分类模型性能的可视化工具，主要用于模型的分类结果和实例的真实信息的比较。（2）使用混淆矩阵的好处在于它能够提供一种直观的方式来理解模型在各个类别上的表现，尤其是在类别不平衡的情况下。
复制链接

扫一扫