二分类模型评价指标-总结

最新推荐文章于 2024-07-29 17:57:20 发布

维格堂406小队

最新推荐文章于 2024-07-29 17:57:20 发布

阅读量8.6k

点赞数 2

分类专栏： ★★★机器学习 # ★★模型选择和评估

本文链接：https://blog.csdn.net/wendaomudong_l2d4/article/details/79385833

版权

★★★机器学习同时被 2 个专栏收录

62 篇文章 3 订阅

订阅专栏

★★模型选择和评估

13 篇文章 1 订阅

订阅专栏

knitr::opts_chunk$set(echo = TRUE)

介绍评价二分类模型的一些指标。

1. 混淆矩阵

	预测为正类	预测为负类
实际为正类	TP	FN
实际为负类	FP	TN

符号标记：
TP—将正类预测为正类数
FN—将正类预测为负类数
FP—将负类预测为正类数
TN—将负类预测为负类数

1.1 准确率*Accuracy

通俗地说就是所有样本被正确预测的占比。

P = T P + T N T P + F P + T N + F N

$P{\rm{ = }}\frac{{TP+TN}}{{TP+FP+TN+FN}}$

1.2 精确率*Precison

通俗地说就是预测为正类的样本中，实际为正类的占比。定义：

P = T P T P + F P

$P{\rm{ = }}\frac{{TP}}{{TP + FP}}$

1.3 召回率*Recall

通俗地说就是实际为正类的样本中，正确预测为正类的占比。定义：

R = T P T P + F N

$R{\rm{ = }}\frac{{TP}}{{TP + FN}}$

1.4 $F_1$ 得分*F-Measure

$F_1$ 相当于精确率和召回率的调和平均数。定义：

2 F 1 = 1 P + 1 R F 1 = 2 T P 2 T P + F P + F N

$\begin{array}{l} \frac{2}{{{F_1}}} = \frac{1}{P} + \frac{1}{R}\\ {F_1} = \frac{{2TP}}{{2TP + FP + FN}} \end{array}$

2. ROC曲线和AUC

2.1 ROC

先定义TPR和FPR:
TPR—真阳性，同召回率
FPR—假阳性，负样本中错误预测为正的占比
二分类模型返回一个概率值，通过调整阈值，即大于该阈值为正类，反之负类，可以得到多个(FPR,TPR)点，描点画图得到的曲线即为ROC曲线。如下图所示：

knitr::include_graphics("../Picture/Pic1-Roc.png",dpi = 600)

2.2 AUC

AUC为ROC曲线下的面积，越接近1说明分类效果越好。
直观的解释AUC，可以这样理解：
从正负样本各随机抽取一个样本Sample1、Sample2，分类器返回概率值P1、P2，AUC=P(P1>P2)。其反应的是分类器对样本的排序能力，好的分类器应该返回正样本以更高概率值。
具体的可以看这里

2.3 KS值

和ROC曲线类似，通过调整阈值可以得到多个(FPR,TPR)点，描点画图时把阈值作为横轴，FPR描点形成一条曲线，TPR描点形成一条曲线。KS值就为Max(TPR-FPR)，KS值越大，表示模型能够将正、负样本区分开的程度越大，但是分隔并不一定表示正确。通常来讲，KS>0.2即表示模型有较好的预测准确性。

knitr::include_graphics("../Picture/Pic2-KS.png",dpi = 600)

这里写图片描述
2018-02-27 于杭州
2018-07-13 改于南京市建邺区新城科技园