目标检测复盘 --3. Fast RCNN

ShyHG

已于 2023-05-19 16:09:20 修改

阅读量350

点赞数

分类专栏： ML/DL 自动驾驶相关文章标签：目标检测深度学习计算机视觉

于 2023-05-18 23:00:04 首次发布

本文链接：https://blog.csdn.net/weixin_45348389/article/details/130755744

版权

18 篇文章 0 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

在这里插入图片描述

在这里插入图片描述

ROI Pooling：这里首先将特征图划分成7*7的大小，然后对每一个单元运用最大池化采样，最后输出特征图的尺寸为7*7，这种方法支持不同尺寸的输入，而不需要固定的尺寸

在这里插入图片描述

获取完特征之后便开始分类，这里的输出size为N+1，这里的输出经过softmax处理（和为1）
分类器：
回归器：
基于回归器对先验框做调整，注意网络的输出，用网络的输出来调整先验框的值（这个和后边YOLO系列的等anchor based方法都基本一致）
这里为什么宽高是基于指数e的，一种可能的解释是 $d_x,d_y$ 可能是负值，为了保证最终的宽高都为正值？我觉得不太对，具体原因尚未可知，或许就是简单的一种范式吧，反正可以学习可以调整，形式不重要，哈哈哈。

在这里插入图片描述

在这里插入图片描述

损失计算，边界框回归损失
注意这里的 $v_x$ 几个数字并不是标注结果， $t^u_x$ 也不是输出的坐标或者宽高，他们都是中间值，经过计算才到最终的结果，标签的计算方式是通过标注结果反推，预测的结果直接由网络输出
$v_x(gt) = \frac{\hat{G_x} - P_x}{P_w}$
这里有个 $[u\geq\;1]$ ，含义是正样本+指示函数，只有正样本的时候才是1，这部分才参与计算损失函数
- 速度瓶颈在SS算法上，后面的CNN模块还是挺快的，所以Faster RCNN就重点来解决这个问题咯