非极大值抑制（Non-Maximum Suppression，NMS）

最新推荐文章于 2024-09-17 10:02:41 发布

xys430381_1

最新推荐文章于 2024-09-17 10:02:41 发布

阅读量2.1k

点赞数

分类专栏：图像处理深度学习文章标签： NMS

深度学习同时被 2 个专栏收录

138 篇文章 58 订阅

订阅专栏

图像处理

57 篇文章 37 订阅

订阅专栏

本文大量参考了博文https://www.cnblogs.com/makefile/p/nms.html

非极大值抑制（Non-Maximum Suppression，NMS），顾名思义就是抑制不是极大值的元素，可以理解为局部最大搜索。这个局部代表的是一个邻域，邻域有两个参数可变，一是邻域的维数，二是邻域的大小。
这里不讨论通用的NMS算法(参考论文《Efficient Non-Maximum Suppression》对1维和2维数据的NMS实现)，而只讨论用于目标检测中提取分数最高的窗口的算法。例如在行人检测中，滑动窗口经提取特征，经分类器分类识别后，每个窗口都会得到一个分数。但是滑动窗口会导致很多窗口与其他窗口存在包含或者大部分交叉的情况。这时就需要用到NMS来选取那些邻域里分数最高（是行人的概率最大），并且抑制那些分数低的窗口。
NMS在计算机视觉领域有着非常重要的应用，如视频目标跟踪、数据挖掘、3D重建、目标识别以及纹理分析等。

NMS在目标检测流程中的位置

NMS在目标检测流程的最后，用于以faster RCNN网络为例，步骤依次为：CNN提取整张图片的特征—>RPN获取候选框及其特征（此处也通过NMS删除了一些冗余的候选框）—>对每个候选框特征进行分类并给出置信度—>候选框位置回归—>NMS。

NMS原理

对于Bounding Box的列表B及其对应的置信度S,采用下面的计算方式.选择具有最大score的检测框M,将其从B集合中移除并加入到最终的检测结果D中.通常将B中剩余检测框中与M的IoU大于阈值Nt的框从B中移除.重复这个过程,直到B为空.
重叠率(重叠区域面积比例IOU)阈值
常用的阈值是 0.3 ~ 0.5.
排序
其中用到排序,可以按照右下角的坐标排序或者面积排序,也可以是通过SVM等分类器得到的得分或概率,R-CNN中就是按得分（score）进行的排序.
示例
如下图，定位一个车辆，最后算法就找出了一堆的方框，我们需要判别哪些矩形框是没用的。
在这里插入图片描述
非极大值抑制的方法是：先假设有6个矩形框，根据分类器的类别分类概率做排序，假设从小到大属于车辆的概率分别为A、B、C、D、E、F。
(1)从最大概率矩形框F开始，分别判断A~E与F的重叠度IOU是否大于某个设定的阈值;
(2)假设B、D与F的重叠度超过阈值，那么就扔掉B、D；并标记第一个矩形框F，是我们保留下来的。
(3)从剩下的矩形框A、C、E中，选择概率最大的E，然后判断E与A、C的重叠度，重叠度大于一定的阈值，那么就扔掉；并标记E是我们保留下来的第二个矩形框。

就这样一直重复，找到所有被保留下来的矩形框。

代码示例

def py_cpu_nms(dets, thresh): 
"""Pure Python NMS baseline.""" 
#x1、y1、x2、y2、以及score赋值 
x1 = dets[:, 0] 
y1 = dets[:, 1] 
x2 = dets[:, 2] 
y2 = dets[:, 3] 
scores = dets[:, 4] 
#每一个检测框的面积 
areas = (x2 - x1 + 1) * (y2 - y1 + 1) 
#按照score置信度降序排序 
order = scores.argsort()[::-1] 
keep = [] #保留的结果框集合 
while order.size > 0: 
	i = order[0] keep.append(i) #保留该类剩余box中得分最高的一个 
	#得到相交区域,左上及右下 
	xx1 = np.maximum(x1[i], x1[order[1:]]) 
	yy1 = np.maximum(y1[i], y1[order[1:]]) 
	xx2 = np.minimum(x2[i], x2[order[1:]]) 
	yy2 = np.minimum(y2[i], y2[order[1:]]) 
	#计算相交的面积,不重叠时面积为0 
	w = np.maximum(0.0, xx2 - xx1 + 1) 
	h = np.maximum(0.0, yy2 - yy1 + 1) 
	inter = w * h 
	#计算IoU：重叠面积 /（面积1+面积2-重叠面积） 
	ovr = inter / (areas[i] + areas[order[1:]] - inter) 
	#保留IoU小于阈值的box 
	inds = np.where(ovr <= thresh)[0] 
	order = order[inds + 1] #因为ovr数组的长度比order数组少一个,所以这里要将所有下标后移一位 
return keep