先看这张图,图中的虚线是阈值,大于这个阈值的将会被预测为正例,小于这个阈值的将会被预测为负例。当阈值从右往左滑动时,真正率会上升,假正率也会上升,当阈值为0时,两个都为1 .当阈值为1时,两个都为0.。我们的目的是让这两个峰值的横坐标尽可能远离,即没有交叠的部分。即当某个阈值的时候,真正率为1,假正率为0.即这个曲线越接近左上角,分类效果越好。这个曲线叫ROC曲线,auc即曲线下面的面积。面积越接近于1越好。
PS:召回率和准确率:准确率P是TP/(TP+FP),召回率R是TP/(TP+FN),和真正率一样。我们希望准确率和召回率都越高越好。F1=2PR/(P+R)=2TP/(2TP+FP+FN)当FP和FN越小时,F1越接近于1.
auc和F1是两个不同的评价指标。