评价标准:
True positives(TP,真正) : 实际为正,预测为正
True negatives(TN,真负):实际为负,预测为负
False positives(FP,假正): 实际为负,预测为正
False negatives(FN,假负):实际为正,预测为负
准确率(accuracy):(accuracy)=(TP+TN)/(TP+FN+FP+TN)
通俗解释: 在所有样本中,预测正确的概率
查准率(精确率Precision):
通俗解释:你认为的正样本中,有多少是真的正确的概率。体现了模型对负样本的区分能力
查全率(召回率Recall):
通俗解释:正样本中有多少是被找了出来。体现了模型对正样本的识别能力
P-R曲线:
AP & mAP
AP:PR 曲线下面积
mAP:mean Average Precision, 即各类别 AP 的平均值
为什么要使用AP和MAP?
我们希望一个模型的Precision和Recall都很高,所以需要综合考虑这两个因素,我们可以联想到用调和平均数F1-beta值来衡量,另一种方法正是PR曲线下的面积AUC,这也就是AP。AUC面积越接近1性能越好。曲线下的面积理解为不同召回值的情况下所有精度的平均值。
F1 score
F1 score是精确率和召回率的调和平均值,计算公式为:
Precision体现了模型对负样本的区分能力,Precision越高,模型对负样本的区分能力越强;Recall体现了模型对正样本的识别能力,Recall越高,模型对正样本的识别能力越强。F1 score是两者的综合,F1 score越高,说明模型越稳健。