【分类指标（一）】如何理解混淆矩阵 | 准确率 | 精确率 | 召回率 | F值等

一穷二白到年薪百万

已于 2022-04-04 21:27:45 修改

阅读量2.3k

点赞数

分类专栏：图表制作文章标签： python 混淆矩阵

于 2022-04-04 10:15:03 首次发布

本文链接：https://blog.csdn.net/zfhsfdhdfajhsr/article/details/123949134

版权

图表制作专栏收录该内容

20 篇文章 3 订阅

订阅专栏

1 混淆矩阵定义( $\rm{}Confusion~Matrix$ )

在分类统计指标的学习过程中，对混淆矩阵的学习是绕不过的一环。只有理解好了混淆矩阵才能对 $\rm{}Fpr、Tpr、Recall、Precision、AUROC、APUR$ 等概念有更深刻的认识。混淆矩阵是通过模型在测试集上的预测来计算的，通过观察混淆矩阵可以更好的理解模型的优缺点。

如上图所示，列表示 $\rm{}Actually~Positive~ and~Actually ~Negative$ 指的是数据集中的真实标签( $\rm{ground~truth~labels}$ )，行表示 $\rm{}Actually~ Positive~ and ~Actually~Negative$ ，指的是模型预测的结果，即模型认为标签是什么。

2 统计指标

混淆矩阵Python代码

from sklearn.metrics import confusion_matrix
confusion_matrix = confusion_matrix(y_test, y_predict)

2.1 混淆矩阵的分类统计指标

$\rm{True~Positives~(TPs):}$ 模型正确分类正样本的数量。
$\rm{True~Negatives ~(TNs)}$ : 模型正确分类负样本的数量。
$\rm{False~Positives ~(FPs)}$ : 模型将负样本错误的预测为正样本的数量。
$\rm{False~ Negatives~ (FNs)}$ : 模型将正样本错误的预测为负样本的数目。

2.1.1 $\rm{True ~Positive~ Rate(TPR)}$

我们可以用混淆矩阵计算 $\rm{} True~Positive ~Rate ~(TPR) ~and~ False~ Positive~ Rate ~(FPR)$ ，并且可以用
$\rm{}TPR 和FPR$ 计算 $\rm{}Area ~Under ~the~ Receiver ~Operating ~Characteristic (AUROC)$

$\begin{aligned} True ~Positive~ Rate = \cfrac {True~ Positives}{All~Positives} = \cfrac{True~Positives}{(True~Positives + False~Negatives)} \end{aligned}$
在这里插入图片描述
除此之外，TPR还有别的名称如 $\rm{}Sensitivity、Reacll、Hit~rate$ 更多细节见参考文献[1]。

2.1.1 $\rm{False ~Positive~ Rate(FPR)}$

$=\cfrac{False ~Positives}{All~Negatives} = \cfrac{False ~Positives}{False~ Positives + True~ Negatives}$
在这里插入图片描述

2.2 准确率( $\rm{Accuracy}$ )

所有样本中被预测正确的样本的比率，分类模型总体判断的准确率(包括了所有class的总体准确率)。
在这里插入图片描述

from sklearn.metrics import accuracy
accuracy = accuracy_score(y_test, y_predict)

2.3 精确率( $\rm{Precision}$ )

预测为正类的准确率:
$\cfrac{TP}{TP + FP}$

from sklearn.metrics import precision_score
precision = precision_score(y_test, y_predict)

2.4 召回率( $\rm{Recall}$ )

在这里插入图片描述

from sklearn.metrics import recall_score
recall = recall_score(y_test, y_predict)

2.5 $\rm{}F_1$ 值( $\rm{F_1-Score}$ )

用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的准确率和召回率。F1分数可以看作是模型准确率和召回率的一种加权平均，它的最大值是1，最小值是0。
在这里插入图片描述

from sklearn.metrics import f1_score
f1_score(y_test, y_predict)

3 $\rm{}Python$ 计算 $\rm{}AUROC$ 和 $\rm{}AUPR$ 值

如何计算模型评估中的AUC和AUPR值

4 $\rm{}Python$ 绘制 $\rm{}AUROC$ 和 $\rm{}AUPR$ 曲线

Python绘制AUROC和AUPR

5 深入理解 $\rm{}AUROC$ 和 $\rm{}AUPR$ 曲线

如何深刻理解 AUC-ROC 曲线

6 参考文献

[1]MACHINE LEARNING Measuring Performance: The Confusion Matrix
[2]混淆矩阵、准确率、精确率、召回率、F值、ROC曲线、AUC、PR曲线-Sklearn.metrics评估方法

一穷二白到年薪百万

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【分类指标（一）】如何理解混淆矩阵 | 准确率 | 精确率 | 召回率 | F值等

目录混淆矩阵定义(Confusion Matrix)参考文献混淆矩阵定义(Confusion Matrix) 在分类统计指标的学习过程中，对混淆矩阵的学习是绕不过的一环。只有理解好了混淆矩阵才能对Fpr、Tpr、Recall、Precision、AUROC、APUR\rm{}Fpr、Tpr、Recall、Precision、AUROC、APURFpr、Tpr、Recall、Precision、AUROC、APUR等概念有更深刻的认识。混淆矩阵是通过模型在测试集上的预测来计算的，通过观察混淆矩阵可以更好
复制链接

扫一扫