(Ps:图片不是我自己的制作的,借用别人的图片)
原博客连接:https://my.oschina.net/liangtee/blog/340317
(PS:这里要明确几个概念)
Y:实际正类
N:实际负类
p:预测正类
n:预测负类
TP :正类预测为正类(真正)
TN :负类预测为负类(真负)
FP :负类预测为正类(假正)
FN :正类预测为负类(假负)
ROC,以及AUC曲线被称为分类指标
ROC:
ROC曲线横坐标:fp=假正/实际负类
ROC曲线纵坐标:tp=真正/实际正类
(注意:ROC曲线中的四个点(0,0)(0,1)(1,0)(1,1))
(0,1)代表了将所有都预测为正,预测为假负为0. 由于tp=p因此FN=0,并且FP=0所有样本预测为正类效果最好
(1,0)那么横坐标为FP = N 那么则为都预测为假正了实际样本是负的样本,结果全预测错了,因此最不好。
(0,0)横纵坐标都为0,那么FP=TP=0,所有样本都预测为负样本
(1,1)FP=N ,TP=P ,所有都预测为正样本因此左上角的位置最好
AUC:是一个概率值,当你随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。
当然,AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。