IOU-Net

最新推荐文章于 2022-11-02 19:20:03 发布

xiaochengJF

最新推荐文章于 2022-11-02 19:20:03 发布

阅读量505

点赞数

分类专栏：目标检测文章标签：深度学习目标检测计算机视觉卷积神经网络

本文链接：https://blog.csdn.net/weixin_43711554/article/details/90348590

版权

41 篇文章 1 订阅

订阅专栏

目标检测算法一般都用NMS算法进行去重，主要依据是分类得分，但分类得分并不能很好地反映预测框的质量，得分高的框不一定比得分低的预测框更精准
如下图：绿色预测框IoU明显更高，但是分类得分低，最后保留下来的反而是红预测框
在这里插入图片描述

下图分别给出了IoU（预测框与目标框）与分类得分、回归得分间的关系图：

下图给出了不同NMS算法的影响：

传统的思路是：预测框的中心点和宽高与目标框越接近，预测得就越准，但随着迭代的进行，框的准确度并没有一直上升，反而有一个先上升后下降的过程，如下图的上部分所示
基于IOU回归：既然IoU可以反映一个框的准确性，那么当然可以用IoU来作为一个指标对预测进行监督，其效果如下图下半部分，随着迭代的进行，预测的框是越来越准确的

核心：在网络中嵌入 IOU 预测支路（训练标签为目标框和预测框的 IoU ），将预测 IoU 作为 NMS 排序依据，因此预测框有两个得分：预测 IoU 得分和分类得分

修改更新策略：当要剔除一个预测框时，会计算被剔除框的分类得分和之前的计算的最高分类得分的最高值，保留最高分类得分，作为最大预测IoU得分对应的预测框的分类得分

在这里插入图片描述

替换传统的regression-based方法，提高了回归部分的可解释性
在这里插入图片描述

ROI pooling：两次量化操作，一次在Pooling之前，RPN预测经过量化得到候选区（整数坐标）；一次是 pooling 过程中将候选区划分为 $k\times k$ 个 bins
ROI Align：ROI Align 则直接采用浮点坐标计算，在每个bin中均匀取4个点（下图红色点），采用双线性插值法估计该处特征值，最后对四个点求平均作为该bin pooling之后的结果
PrROI Pooling：ROI Align仅考虑每个bin中的4个插值点，PrROI Pooling 则将 bin 看作是连续的区域，对其进行积分，然后除以其面积得到该bin的pooling结果，浮点坐标处采用双线性插值 $^{【10】}$ 。通过积分方式计算ROI特征使得前向计算的误差进一步降低，同时反向传播时基于连续输入值计算梯度使得反向传播连续可导（对bin区域内的数值进行求和，然后除以bin的面积）