我们在分类中往往采用一些指标如Precision,Recall,ROC图来衡量一个分类器的分类效果。
在实际中遇到的数据往往是正负样本不平衡(class imbalance)的,比如假设100个人里面有1个是癌症患者,那么,分类器只要对所有样本返回非癌症即可获得99%的Accuracy,然而此时的分类器并没有意义,它不能识别任何的癌症患者。此时我们需要Precision,Recall,调和F值,ROC等来衡量分类器的效果。
我们的问题是:在正负样本比例不平衡时,PRCurve和ROCCurve哪个更能衡量分类器的效果?
在进行不平衡数据学习时,我们往往把少数量的样本标记成正样本(positive),然后进行样本的学习和预估。