目录
一、目标检测常用评价指标
二、速度指标
- 前传耗时(ms):从输入一张图像到输出最终结果所消耗的时间,包括前处理耗时(如图像归一化)、网络前传耗时、后处理耗时(如非极大值抑制);
- 每秒帧数FPS(Frames Per Second):每秒中能处理的图像数量;
- 浮点运算量(FLOPS):处理一张图像所需要的浮点运算数量,跟具体软硬件没有关系,可以公平地比较不同算法之间的检测速度。
三、精度指标
1.混淆矩阵
注:其中的 T/F 表示预测的对错、P/N表示预测的结果。
- TP (True Positive):表示实际为正例,判定也为正例的次数,即表示判定为正例且判定正确的次数;
- FP (False Positive): 表示实际为负例,却判定为正例的次数,即表示判定为正例但判断错误的次数;
- TN (True Negative):表示实际为负例,判定也为负例的次数,即表示判定为负例且判定正确的次数;
- FN (False Negative): 表示实际为正例,却判定为负例的次数,即表示判定为负例但判断错误的次数;
2.Precision、Recall、F1、Fβ
(1)Precision
精度Precision:表示正确判定为正例的次数与所有判定为正例的次数的比例,用来评估预测的是否准确;
(2)Recall
查全率Recall:表示正确判定为正例的次数与所有实际为正例的次数的比例,用来评估找的全不全;
(3)F1
F1是Precision和Recall的调和平均;
(4)Fβ
Fβ是Precision和Recall的加权调和平均
3IoU(Intersection over Union)
注:红色框代表检测结果、黑色框代表真值。
IoU这一指标可以用来衡量外接矩形框框的准不准;
4.FAR、FRR、FAR-FRR曲线
(1)FAR
FAR (False Acceptance Rate)是错误接受率,也叫误识率,表示错误判定为正例的次数与所有实际为负例的次数的比例。
(2)FRR
FRR (False Rejection Rate)是错误拒绝率,也叫拒识率,表示错误判定为负例的次数与所有实际为正例的次数的比例。
(3)FAR-FRR曲线
它反映了识别算法在不同阈值上,FRR(拒识率)和FAR(误识率)的平衡关系。其中横坐标是FRR(拒识率),纵坐标是FAR(误识率),等错误率(EER Equal-Error Rate)是拒识率和误识率的一个平衡点,等错误率能够取到的值越低,表示算法的性能越好。
5.TPR、FPR、ROC曲线、AUC
(1)TPR
真正例率(True Positive Rate):真正例/所有正例;
(2)FPR
假正例率(False Positive Rate):假正例/所有负例
(3)ROC曲线
ROC(receiver operating characteristic curve)曲线是“受试者工作特征”曲线,是一种已经被广泛接受的系统评价指标。以FPR为横坐标、TPR为纵坐标,将每一个阈值所对应的(FPR,TPR)放入坐标系中。用线条将所有的点连接起来——此即为ROC曲线。
- 阈值选择:一般来讲,如果一个点越接近左上角(TPR越大,FPR越小),那么说明模型的预测效果越好。如果能达到左上角点(0,1),那就是最完美的结果了。在实际应用中选取最佳阈值的时候,还需要考虑对真阳性的要求以及对假阳性的容忍程度。
- 模型比较:ROC曲线还可以用于不同模型的比较。右图中有三条 ROC 曲线,A 模型比 B 和 C 都要好。
(4)AUC
AUC(Area Under Curve):ROC曲线下方的面积,AUC 同样可以用于判断分类器优劣,一般来说,AUC 的值越大越好。
6.P-R曲线、AP、mAP
(1)P-R曲线
选取不同的IOU值[0, 1],会得到不同的Recall和Precision值,将Recall作为自变量,Precision作为因变量构成的曲线称为P-R曲线;
(2)AP和mAP
P-R曲线与坐标轴所围成区域的面积为当前类别的AP值,AP(Average Precision)用于评价模型在每个类别上的好坏;mAP是AP的平均值,用于评价模型在所有类别上的好坏。0<mAP<1,mAP值越大模型检测效果越好。
注:N为缺陷类别总数
(3)P-R曲线与ROC的关系
- 对于一个给定的包含正负样本的数据集,ROC空间和PR空间存在一一对应的关系
- ROC曲线主要应用于测试集中的样本分布的较为均匀的情况,且当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。ROC面对不平衡数据的一致性表明其能够衡量一个模型本身的预测能力,这个预测能力是与样本正负比例无关的。但是这个不敏感的特性使得其较难以看出一个模型在面临样本比例变化时模型的预测情况,此时用PR曲线更加能反映出分类器性能的好坏。