目标检测系列 | 常见概念与评价指标

1. 常见概念

1.1 边界框(bounding box)

缩写 bnd box,若为物体真实边界框则称其为真实框(Ground Truth Box,常缩写为 GT ),若为检测网络预测的边界框则称其为预测框(Prediction Box)。

边界框常用的两种坐标表示方式:

1) ( x 1 , y 1 , x 2 , y 2 ) ( x_1, y_1, x_2, y_2 ) (x1,y1,x2,y2)

其中, ( x 1 , y 1 ) ( x_1, y_1 ) (x1,y1) 为边界框左上角的坐标, ( x 2 , y 2 ) ( x_2, y_2 ) (x2,y2) 为边界框右下角的坐标。

2) ( x , y , w , h ) ( x, y, w, h ) (x,y,w,h)

其中, ( x , y ) ( x, y ) (x,y) 为边界框中心位置的坐标, ( w , h ) ( w, h ) (w,h) 分别为边界框的宽和高。

注:图像原点在图像左上角的顶点,顶点向右为 x x x 轴,顶点向下为 y y y 轴。以物体类别为 2 的情况为例,通常预测框会输出 ( c , p 1 , p 2 , x 1 , y 1 , x 2 , y 2 ) ( c, p_1, p_2, x_1, y_1, x_2, y_2 ) (c,p1,p2,x1,y1,x2,y2) ,其中 c c c 为置信度,表示预测框内包含物体的概率, p 1 p_1 p1 为物体属于类别 1 的预测概率, p 2 p_2 p2 为物体属于类别 2 的预测概率,。

1.2 锚框(Anchor)

锚框不同于边界框,锚框是模型提前假定的框,用以框住所要检测的物体,实现定位功能。

通常会提前设定 9 个尺寸,也有不需要锚框的、实现了 Anchor free 的目标检测网络,如 SSD 等 one-stage 的检测网络。

1.3 交并比(IoU)

IoU,全称 Intersection of Union, 即两个框的交集部分面积除以并集面积,用数学形式表示便是 I o U ( A , B ) = A ∩ B A ∪ B IoU(A,B) = \frac{A \cap B}{A \cup B} IoU(A,B)=ABAB,具体如下图蓝色部分面积除以两个框的并集面积。

在这里插入图片描述

在一个 GT 和多个锚框有重合时,会采用 IoU 作为衡量指标,决定是否剔除某个锚框,一般以 IoU = 0.5 为边界,通常 IoU > 0.5 则保留这个锚框,认为其有效;IoU < 0.5 则剔除这个锚框,认为该锚框没有有效框中物体。一般常和 NMS 一起配合剔除冗余的锚框,同时 IoU 也是计算 AP 的重要指标。

注:在目标检测的开始阶段,通常会允许一个物体有多个框,但是一个框只能对应一个物体。

1.4 非极大值抑制(NMS)

为保证物体检测的召回率,对一个物体通常会输出多于 1 的锚框,但同时也会带来一些副作用,比如降低了检测精度,这时候便需要通过 NMS 过滤掉重叠的锚框,得到最佳的预测输出。

NMS 顾名思义便是抑制置信度不是极大值的框,具体做法是通过对置信度由高到低排序,将置信度最高的锚框作为主要比较对象,用以抑制(去除)掉置信度低且和比较的锚框重叠度高( IoU 一般以 0.5 或 0.7 为界)的锚框,往复循环,直至该坐标位置上的物体无其余候选框。(当然这也会带来一些副作用,如在物体重叠时会漏检)

例如下图中网络对行人 A 输出了两个锚框,其中红色锚框的置信度为 0.95,而蓝色框输出的置信度为 0.8,但两个框对应的是同一个物体,而同一个物体最终只需要输出一个预测框即可,此时便可通过 NMS 去抑制掉置信度较低且和红框有较大重叠部分的蓝框。

在这里插入图片描述

2. 评价指标

2.1 TP、TN、FP、FN

对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例 、假正例 、真反例、假反例四种情形,令 TP 、FP 、TN 、FN 分别表示其对应的样例数,则显然有 TP + FP + TN + FN = 样例总数。

  • TP(True Positives,真正例) : 预测为正,实际为正( 与 GT 的 IoU > 0.5 的检测框个数,一个 GT 只计算一次)

  • TN(True Negatives,真负例):预测为负,实际为负( 物体检测里无法计算这一部分 )

  • FP(False Positives,假正例): 预测为正,实际为负( 与 GT 的 IoU < 0.5 的检测框个数,同一个 GT 的冗余检测框也应计算 )

  • FN(False Negatives,假负例):预测为负,实际为正( GT 中未被检测出的物体,即漏检物体 )

Tip:可以将前面的单词记为是否预测正确(True,预测正确,反之False预测错误),而后面的单词记为预测为何种类别(Positives,正例,反之Negatives负例)。在目标检测中 Positives 表示前景、Negatives 表示背景。

在这里插入图片描述

2.2 Precision、Recall

Precision ,准确率(也称查准率),用以表示 “ 检索出来的信息有多少比例是用户感兴趣的(信息检索中) ” 或 “ 预测为正例的样本中实际也为正例的比例(预测为正样本中预测准确的比例) ” ,其计算公式为:

P r e c i s i o n = T P T P + F P Precision=\frac{TP}{TP+FP} Precision=TP+FPTP

Recall ,召回率(也称查全率),用以表示 “ 用户感兴趣的信息有多少比例被检索出来了(信息检索中) ” 或 “ 实际为正例的样本有多大比例预测正确了(召回了多少正样本) ” ,其计算公式为:

R e c a l l = T P T P + F N Recall=\frac{TP}{TP+FN} Recall=TP+FNTP

在这里插入图片描述
有了以上的概念,便可以知道在目标检测中,准确率 Precision 表示检测出物体且真实也为物体的比例(正确识别的物体比例),召回率 Recall 表示实际为物体且检测出物体的比例(物体被正确识别的比例),因此 1 − R e c a l l 1 - Recall 1Recall 就可以表示漏检的比例。

准确率和召回率是一对矛盾的度量。一般来说,准确率高时,召回率往往偏低;而召回率高时,准确率往往偏低。

2.3 AP、mAP

在计算 AP 前还需要介绍一下 PR 曲线( Precision - Recall ),PR 曲线下的面积便是 AP ,通常来说,一个越好的分类器,其 AP 也就越高。

例如下图 pottedplant 这一类别的 PR 曲线,可计算其 AP 为 0.6231 。

在这里插入图片描述

而 mAP 便是所有类别的 AP 平均值,因为在物体检测中,存在多个物体类别需要进行识别,因此存在多个类别的 AP ,如下图:

在这里插入图片描述

将所有物体类别的 AP 进行求平均即可得 mAP = 0.3105 。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值