对于大部分二分类问题,尤其是不平衡数据集(即一个类别出现的次数比另一个类别多很多),通常用的分类评估方法精度指标accuracy并不能很好的反映模型的好坏。
举一个极端的例子,如果1组数据有100个样本,其中99个为正类,1个为负类。如果提供一个模型永远只预测样本为正类,那么这个模型也能有99%的精度。但实际上找个模型其实是很很傻的,什么也没学到,只是因为数据集的不平衡是的模型看上去很好,却永远也无法对负类做出预测。
为了更好的评估负类模型,通测使用混淆矩阵(confusion matrix),为数据的分类任务产生TN,FP,FN和TP四个象限的矩阵,TN为真反例,FP为假正例,FN为假反例,TP为真正例:
真实值是positive,模型认为是positive的数量(True Positive=TP)
真实值是positive,模型认为是negative的数量(False Negative=FN):这就是统计学上的第一类错误(Type I Error)
真实值是negative,模型认为是positive的数量(False Positive=FP):这就是统计学上的第二类错误(Type II Error)
真实值是negative,模型认为是negative的数量(True Negative=TN)
由混要矩阵可以延伸出