引言
很多分类器是为测试样本产生一个实值或概率预测,然后将这个预测值与一个分类阈值进行比较,若大于阈值则分为正类,否则为负类。
在不同的应用任务中,根据实际需要,可以选择不同的阈值。如果我们更加重视“查准率(Precision Rate)”,那么可以将阈值选得较大;如果我们更重视“召回率(Recall Rate)”,那么可以将阈值选得较小。
当样本分布给定的时候,对于特定的阈值,我们都可以用该分类器进行测试,计算出真正例率(True Positive Rate,简称TPR, T P R = T P T P + F N TPR=\frac{TP}{TP+FN} TPR=TP+FNTP )和假正例率(False Positive Rate,简称FPR, F P R = F P T N + F P FPR=\frac{FP}{TN+FP} FPR=TN+FPFP )。如果连续地改变阈值,那么TPR和FPR就会构成一条二维曲线,这条曲线就称为ROC曲线(Receiver Operating Characteristic Curve)。
ROC曲线
ROC曲线的基本性质
性质1:任何ROC曲线必定经过原点和(1,1)
证明:
当阈值大于所有样本的预测值时,所有的样本都会被归为负类,这时正例数为0,因此FPR和TPR都为0,对应于ROC曲线的原点,此时的分类方法是最“保守的”。
当阈值小于所有样本的预测值时,所有的样本都会被归为正类,此时负例数为0,因此