Faster Rcnn，ROI Pooling 与 ROI Align

看山不是山a

已于 2023-10-09 09:55:35 修改

阅读量271

点赞数

分类专栏：目标检测文章标签：深度学习人工智能

于 2023-09-12 10:08:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_62848630/article/details/132823204

版权

目标检测专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、公用特征Feature Maps的获取

二、Region Proposal Network

Feature Maps[bs,1024,38,38]经过3*3卷积，然后分别经过两个1*1的卷积，通道数分别为18，36

18 = 9*2 代表每个位置9个先验框为背景和目标的概率

36 = 9*4 代表每个位置9个先验框的坐标调整参数（Faster Rcnn也是有先验框的）

先验框 + 位置调整参数 = 建议框

建议框的初筛

由于建议框非常多，要对建议框进行初筛，先根据建议框是目标的分数，选出得分最高的前K个建议框，再进行NMS，然后再选出得分最高的前K个建议框。如一张照片有300个建议框。

三、ROI Pooling

根据建议框的参数，在Feature Map上裁剪出对应特征，比如[1024,82,79],每个特征的大小是不一样的。

1.ROI Pooling 的输入

ROI Pooling 该层有两个输入：

feature maps，如[bs，1024，38，38]；
一个表示所有 ROI 的 N*5 的矩阵，其中N表示ROI的数目。一列表示图像index，其余四列表示其余的左上角和右下角坐标，如[[x1,y1,x2,y2,index1],]；

2.ROI Pooling 的输出

输出特征为[bs,k,1024,14,14],其中k为一张图片有k个建议框，14 * 14为pooling后的大小

eg：

如feature maps [1024,8,8],一号建议框坐标[0,3,7,8,1]，其中（0,3），（7,8）左下角坐标和右上角坐标，输出为2 * 2

3. RoI pooling 与RoI Align区别

参考： https://blog.csdn.net/Tian__Gao/article/details/124474448?ops_request_misc=&request_id=&biz_id=102&utm_term=roi%20pooling&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-6-124474448.142^v93^chatgptT3_2&spm=1018.2226.3001.4187

参考视频：[快速学懂]ROI pooling 和ROI align_哔哩哔哩_bilibili

3.1RoI pooling

实际得到的建议框往往不是整数，即上图绿色框。（网格的像素值在网格左上角顶点）

将实际顶点对其到离他最近整数节点

3.2 RoI Align

如Roi 后的图像大小为K * K（将特征缩放为K * K）

首先将建议框划分为 K * K个区域，每个区域选择4个采样点，利用双线性插值求出采样点的像素，最后对该4个像素平局池化，即得到此区域的像素

四、边界框的类别预测与坐标回归

RoI pooling后的输出特征[bs,k,1024,14,14] ,经过全局平局池化[bs,k,1024],然后经过两个线性层

nn.Linear(1024, n_class) 进行类别预测， nn.Linear(1024, n_class * 4) 进行坐标回归预测。

看山不是山a

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Faster Rcnn，ROI Pooling 与 ROI Align

由于建议框非常多，要对建议框进行初筛，先根据建议框是目标的分数，选出得分最高的前K个建议框，再进行NMS，然后再选出得分最高的前K个建议框。如一张照片有300个建议框。Feature Maps[bs,1024,38,38]经过3*3卷积，然后分别经过两个1*1的卷积，通道数分别为18，36。根据建议框的参数，在Feature Map上裁剪出对应特征，比如[1024,82,79],每个特征的大小是不一样的，36 = 9*4 代表每个位置9个先验框的坐标调整参数（Faster Rcnn也是有先验框的）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。