混淆矩阵,是机器学习和深度学习中对模型结果的分析表。
TP:true positive,真实是positive,模型预测结果也是positive。
FP:false positive,真实是negative,模型预测结果是positive,也被称为统计学上第一类错误。
FN:false negative,真实是positive,模型预测结果是negative,也被称为统计学上第二类错误。
TN:true negative,真实是negative,模型预测也是negative。
这四个值就是混淆矩阵的基础构成,也由此衍生出一系列评判指标:
查准率,精确度: ,precision,也就是预测为正的样本中真实也为正的比例。
召回率:,recall,也就是真实正样本中被预测为正的比例。
真正率,灵敏度:,可以发现其实和召回率的公式是一样.
假正率:1-特异度,,真实为负的样本中被预测为正的比例。
F值:,判断精确度和召回率之间的权衡
通过遍历所有阈值,TPR和FPR所绘制成的曲线就叫ROC曲线,其中FPR为横坐标,TPR为纵坐标,如下图所示。
那如何判断ROC曲线的好坏呢,即怎么通过ROC曲线判断出模型的优劣?
需要通过另一个指标AUC:ROC曲线下方包含的面积,越大说明模型越好。
AUC评判标准:
0.5:随机判断的结果
0.5 - 0.7:效果较低
0.7 - 0.85:效果一般
0.85 - 0.95:效果很好
0.95 - 1:效果非常好,但一般不太可能