ROC与AUC的含义绘制与解读
1.ROC曲线
ROC曲线是研究学习其泛化性能的有效工具,体现综合考虑学习器在不同任务下“期望泛化性能”的好坏。
ROC曲线的纵轴是“真正例率”TPR(true positive rate)和“假正例率”FPR(false positive rate)
T
P
R
=
T
P
/
(
T
P
+
F
N
)
TPR=TP/(TP+FN)
TPR=TP/(TP+FN)
F P R = F P / ( T N + F P ) FPR=FP/(TN+FP) FPR=FP/(TN+FP)
真正例率:真正例在所有实际正例中占比 (正例中被挑出来对的)
假正例率:假正例在所有实际反例中占比 (反例中被挑错的)
曲线的突起程度越高,模型准确率越高
曲线越接近对角线,模型准确率越低
2.AUC指标
ROC曲线下方与X轴围成的面积,AUC是一个数值,在0-1之间
一般情况下,AUC越大,模型越好
AUC=1:是完美的分类器,该模型至少存在一个阈值,可以将正负样本完美的分开
0.5<AUC<1 : 优于随机猜测,数值越大,分类器越好
AUC<0.5 :比随机猜测要差,然而若反向预测,该模型也可由于随机猜测
3.ROC曲线绘制
分类模型的输出结果中包含一个0-1的概率值,该概率代表着对应样本被预测为某类别的可能性。通过阈值来划分正负例,概率大于阈值的为正例,概率小于阈值的为负例
如:
样本ID | 预测概率 | 阈值=0.9 | 阈值=0.5 | 原本类别 |
---|---|---|---|---|
1 | 0.95 | 正 | 正 | 正 |
2 | 0.86 | 负 | 正 | 负 |
3 | 0.64 | 负 | 正 | 正 |
4 | 0.43 | 负 | 负 | 负 |
①将全部样本按概率进行递减排序
②阈值从1变更至0,计算各阈值下对应的(FPR,TPR)数值对
③将数值对绘于直角坐标系中
4.ROC曲线解读
可以将横轴理解为代价,纵轴理解为收获
学习内容来源:1.《机器学习》西瓜书
2.https://www.bilibili.com/video/BV1SK4y1K7v3?from=search&seid=1303005528789776454&spm_id_from=333.337.0.0