TPR
= TP / (TP + FN)
即所有真实类别为1的样本中,预测类别为1的比例
也就是召回率(是正例,预测也为正例)
FPR
= FP / (FP + TN)
即所有真实类别为0的样本中,预测类别为1的比例
ROC曲线
横坐标为FPR,纵坐标为TPR
先看:
https://blog.csdn.net/ye1215172385/article/details/79448575
再看:
https://blog.csdn.net/YE1215172385/article/details/79443552
随机挑选一个标签为0的样本A,再随机挑选一个标签为1的样本B。你预测样本B为1的概率大于样本A为1的概率的概率就是你的ROC AUC。比较拗口,多念几遍,就通顺了
计算置信区间的公式:[1] [2]
其中,
N1 : 事实为正例的数目
N2 : 事实为负例的数目 见[2]
记住,公式算出来的是标准差segma(也就是SE),为了95%的置信区间还需要乘以一个前面的系数z,若z=2即取两倍标准差,详见:
https://www.jianshu.com/p/9d05d11d6cb1
则认为落在区间的概率为95%
参考文献:
[1] The meaning and use of the area under a receiver operating characteristic (ROC) curve.
[2] Confidence Intervals for the Area Under the ROC Curve