前言
Roc曲线和auc值是分类模型的评估指标。
Auc是roc曲线下方面积。
一、混淆矩阵
ROC曲线的建立是基于混淆矩阵。
混淆矩阵:不损失信息的表示分类系统分类正确与否。首先要知道一共有x种分类,预测结果分类数量和上者相同,故一共会出现xx种情况。比如一共有6个要进行二分类的。真实值为0,而分类为0的1个,分类为1的2个;真实为1分类为0的2个,分类为1的1个。下表就是一个混淆矩阵。若有3类,则是33的矩阵,主对角线上的数为预测正确的数。希望主对角线上的数尽可能大,这样这个模型就比较好。
若用概率为横坐标表示分类器得到结果的概率,从而对类别进行预测;真实类别表示纵坐标。
设定一个阈值,当概率大于等于这个阈值是,分类器认为是(1),反之为不是(0).假设阈值为0.5,那么这个混淆矩阵如下图。
阈值可以取0到1内任何数,所以可以得到很多混淆矩阵。
二、ROC曲线和AUC值
把所有混淆矩阵表示在同一个二维空间就是ROC曲线
对于一个混淆矩阵可以求两个指标TPR和FPR,用FPR表示横坐标,TPR表示纵坐标,一个混淆矩阵对应曲线上一点。不断移动阈值,直到阈值取得最大值,就会得到所有混淆矩阵,把这些点连起来就是混淆矩阵。TPR尽可能大,FPR尽可能小时,即越靠近左上角,越好。
即模型B比模型A要好。
如果用数字表示就是AUC值,AUC越大越好,AUC一般取0-1中的值。
总结
学习视频地址:https://www.bilibili.com/video/BV1wz4y197LU/?vd_source=3a369b537e1d34ff9ba8f8ab23afedec