分类模型效果评估指标-混淆矩阵、recall、precision、auc、roc、ks、psi等

本文详细介绍了二分类模型中的关键评估指标,如混淆矩阵、准确性、精确度、召回率、F1分数、ROC曲线、AUC值、KS统计和Lift提升度。此外,还探讨了PSI稳定性指标在评估模型适用性的重要性。这些指标帮助我们全面了解和优化模型性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分类模型评估指标,下面是二分类的示例(多分类时,把其中一类列为正样本,其他归为负样本进行统计即可)

一、混淆矩阵

预测值
真实值10
1TPFN(type Ⅱ error)
0FP(type Ⅰ error)TN

TP = True Postive = 真阳性;
FP = False Positive = 假阳性;
FN = False Negative = 假阴性;
TN = True Negative = 真阴性

二、accuracy、precision、recall

accuracy(准确性,ACC,) = (TP+TN)/(TP+FP+FN+TN)
precision(精确度,PPV, positive predictive value ,阳性预测值) = TP/(TP+FP)= 真阳性/预测为正的样本
recall(召回率,TPR,True Positive Rate,或者敏感度,sensitivity,真阳率) = TP/(TP+FN)=真阳性/真实为正的样本
false positive rate(假阳率,FPR) = FP/(TN+FP)=真实为负预测为正的样本数/真实为负的样本
True Negative Rate(真阴率,TNR,特异度,specificity)= TN/(TN + FP)=真阴性的样本数/真实为负的样本
False negtive rate(假阴率,FNR)= FN/(FP+FN)=假阴性/真实为正的样本
False discovery rate(FDR,假阳发现率)= FP/(TP+FP)=假阳性/预测为正的样本
False omission rate(FOR,假阴发现率)= FN/(FN+TN)=假阴性/预测为负的样本
Negative predictive(NPV,阴性预测值) = TN/(FN+TN)=真阴性/预测为负的样本
在这里插入图片描述

三、F1、roc、auc、ks

1、F1

F1-值(F1-score)= 2TP / (2TP+FP+FN);

2、roc

含义和计算逻辑:ROC曲线是基于混淆矩阵得出的。一个二分类模型的阈值可能设定为高或低,每种阈值的设定会得出不同的 FPR 和 TPR ,将同一模型每个阈值的 (FPR, TPR) 坐标都画在 ROC 空间里,就成为特定模型的ROC曲线。x轴:FPR(假阳率)或1-TNR(真阴率);y轴:TPR(召回率);按照probability阈值由小到大划分计算TPR、FPR矩阵,即为roc。ROC值一般在0.5-1.0之间。值越大表示模型判断准确性越高,即越接近1越好。ROC=0.5表示模型的预测能力与随机结果没有差别。

应用场景:ROC曲线不固定阈值,允许中间状态的存在,利于使用者结合专业知识,权衡漏诊与误诊的影响,选择一个更加的阈值作为诊断参考值。

3、auc

含义和计算逻辑:roc曲线下的面积,由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。AUC的含义通俗理解:随机给定一个正样本和一个负样本,用一个分类器进行分类和预测,该正样本的得分比该负样本的得分要大的概率。

应用场景:衡量模型预测的质量,而不考虑选择什么分类阈值。
AUC = 1,是完美分类器
AUC = [0.85, 0.95], 效果很好
AUC = [0.7, 0.85], 效果一般
AUC = [0.5, 0.7],效果较低,但用于预测股票已经很不错了
AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值
AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测
在这里插入图片描述

4、ks

含义和计算逻辑:KS(Kolmogorov-Smirnov):KS用于模型风险区分能力进行评估,用以评估模型对好、坏客户的判别区分能力,指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强,KS值范围在0%-100%。
KS 曲线是两条线,其横轴是 “阈值”(区间序号,按概率排序的等份),纵轴是 TPR(上面那条)与 FPR(下面那条)的值,值范围[0,1] 。两条曲线之间之间相距最远的地方对应的阈值,就是最能划分模型的阈值。
KS 取的是TPR和FPR差值的最大值,能够找到一个最优的阈值。KS=max(TPR−FPR)
在这里插入图片描述
应用场景:表示模型将正负样本区分开的能力,一般应用于金融风控领域。
KS: <20% : 差
KS: 20%-40% : 一般
KS: 41%-50% : 好
KS: 51%-75% : 非常好
KS: >75% : 过高,需要谨慎的验证模型

5、Lift提升度

含义和计算逻辑:Lift提升度(指数)衡量的是评分模型对坏样本的预测能力与不利用模型随机选择相比,模型的预测能力“变好”了多少倍,变好的倍数就是Lift,Lift越大,模型的效果越好,LIFT大于1说明模型表现优于随机。
lift = precision / 正样本占比 = ppv / [p/(p+N)]

6、PSI

含义和计算逻辑:由于模型是以特定时间段的建模样本开发的,此模型是否适用于开发样本之外的样本(时间段不同或客群不同),必须经过稳定性测试才能得知。稳定度指标(population stability index ,PSI)可衡量测试样本和建模样本评分的分布差异。PSI表示的就是按分数分档后,针对不同客群样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内样本占总样本的占比是否有显著变化。
PSI = ∑(actual−except)ln(except/actual )

应用场景:评估模型整体的稳定性,也可以评估特征的稳定性,一般PSI小于0.25意味着变化在可接受范围内。
PSI<0.1:样本分布有微小变化
0.1⩽PSI<0.2:样本分布有变化
PSI>0.2:样本分布有显著变化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值