目标检测模型的评估方法

最新推荐文章于 2024-07-20 10:04:47 发布

LX14007

最新推荐文章于 2024-07-20 10:04:47 发布

阅读量528

点赞数

文章标签：目标检测深度学习

本文链接：https://blog.csdn.net/weixin_44000084/article/details/128924863

版权

目标检测模型的评估方法

检测结果的正确/错误类型
正确结果：图中这个位置有一只猫，且检测算法检测到了
假阳性：图中这个位置没有物体，但检测算法输出了一个检测框
假阴性：图中这个位置有一台笔记本电脑，但检测器没有检测到
正确结果(True Positive)：算法检测到了某类物体(Positive)，图中也确实有这个物体，检测结果正确(True)
假阳性(False Positive)：算法检测到了某类物体(Positive)，但图中其实没有这个物体，检测结果错误(False)
假阴性(False Negative)：算法没有检测到物体(Negative)，但图中其实有某类物体，检测结果错误(False)
检测到的衡量标准：对于某个检测框，图中存在同类型的真值框且与之交并比大于阈值（通常取0.5）

准确率Precision 与召回率Recall

召回率recall = 正确结果总数 / 真值框总数 = TP / TP + FN
准确率precision = 正确结果总数 / 检测框总数 = TP / TP + FP
真值框总数与检测算法无关，因此只需将检测结果区分为TP 和FP 即可计算recall 和precision

准确率与召回率的平衡

两种极端情况：

检测器将所有锚框都判断为物体：召回率≈100%，但大量背景框预测为物体，FP很高，准确率很低
检测器只输出确信度最高的1个检测框：以很大概率检测正确，准确率=100%，但因为大量物体被预测为背景，FN很高，召回率很低
一个完美的检测器应该有100%召回率和100%的精度；在算法能力有限的情况下，应该平衡二者
通常做法：将检测框按置信度排序，仅输出置信度最高的若干个框
置信度= 分类概率，或修正后的分类概率（YOLO、FCOS）

PR 曲线与AP 值

为得到阈值无关的评分，可以遍历阈值，并对Precision 和Recall 求平均
具体做法：
• 检测框按置信度排序，取前K 个框计算Precision 和 Recall
• 遍历K 从1 至全部检测框，将得到的Precision 和 Recall 值绘制在坐标系上，得到PR 曲线
• 定义Average Precision = Precision 对 Recall 的平均值，即PR 曲线下的面积，作为检测器的性能衡量指标

PR 曲线的起伏

召回率 recall = TP / 真值框总数
真值框总数与检测算法无关，TP 个数随检测框个数增多而增多或不变，因此recall 随检测框个数增多而增加或不变
准确率precision = TP / TP + FP
每增加一个检测框，如果检测框是正确的，准确率上升，否则下降，因此precision 会有上下波动
为避免起伏的影响，在计算面积前对PR曲线进行插值

Mean AP

分类别统计AP，并按类别平均即得到Mean AP
Mean AP 的完整计算流程：
• 将数据集中全部图像上的检测框按预测类别分类
• 对于某一类别的所有检测框，计算AP：
1. 按置信度将该类别的所有检测框排序
2. 逐一与真值框比较，判定TP 或FP ，并绘制PR 曲线
3. 对PR 曲线插值，计算AP
• 求所有类别的AP 的平均，得到Mean AP
部分数据集（如COCO）还要求在不同的IoU 阈值下计算Mean AP，得到AP50，AP75 等指标可衡量检测器在不同定位精度要求下的性能