RPN生成Region Proposal——Faster RCNN

稚与

于 2020-06-02 14:41:08 发布

阅读量1.7k

点赞数 1

分类专栏： Object Detection 文章标签：卷积深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45698935/article/details/106495855

版权

Object Detection 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Faster-RCNN

文章目录

Faster-RCNN

简介

主要贡献

使用RPN（Region Proposal Network）产生建议窗口
产生建议窗口的CNN和目标检测的CNN共享

基本原理

整体结构

卷积层。跟Fast RCNN差不多。
RPN层。

主要用于生成Region Proposals，首先生成一堆Anchor box，生成两个分支，其中一个分支对其reshape后用softmax判断anchors属于前景还是背景（一个二分类）；另一个分支bbox regression修正anchor box，形成较精确的proposal。

roi pooling层。

输入为feature map和proposal，得到固定大小的proposal feature map，送入全连接层。

特征提取

对于任意大小的图片，padding成固定尺寸，如上图M*N。

卷积层：size=3，pad=1，stride=1；feature map和原图尺寸一样。
ReLU层
pooling层：size=2，stride=2；池化后尺寸减半。

经过CNN后feature map变为原来的1/16。

RPN（Region Proposal Network）

RPN整体框架

一、pn_conv/3*3和rpn_conv/3*3

得到feature map后进入RPN层，rpn_conv/3*3和rpn_conv/3*3是3*3的卷积，随后进入rpn_cls_score和rpn_bbox_pred均为1*1的全卷积。

3*3的卷积不改变feature map大小，仍是60*40*512。

全卷积实际上是将不同channel进行线性组合，从而升维或降维。

二、 rpn_data

这一层主要是生成anchor box，并和GT对比。

生成Anchor

所谓Anchor即region proposal，由（x1,y1,x2,y2）表示，分别代表左上角和右下角坐标。尺寸的3种scale with box areas分别为{128*128,256*256,512*512}，缩放的3种aspect ratios分别为{1:1,2:1,1:2}，一共组合成9种矩形框。对于60*40大小的特征图，共生成60*40*9个anchor box。

当然，这些anchor box存在很多重叠和超边界情况，所以需要对所有的anchor进行过滤和标记。

标记anchor，对应分类任务

去除超过原图边界的anchor box。
如果anchor box和GT的IoU最大，则标记为正样本，label=1
如果anchor box和GT的IoU>0.7，则标记为正样本，label=1
如果anchor box和GT的IoU<0.3，则标记为负样本，label=0
余下的样本均丢弃，label=-1

结果返还到rpn_cls_score_reshape。

偏移量，对应定位任务

即计算anchor box和GT之间的偏移量，不断学习减小。

$\Delta x=\frac{(x^*-x_a)}{w_a}\\\Delta y=\frac{(y^*-y_a)}{h_a}\\\Delta w=log\frac{(w^*)}{w_a}\\\Delta h=log\frac{(h^*)}{h_a}$

记录四个回归值，返还到rpn_bbox_pred。

三、 rpn_loss_cls、rpn_loss_bbox、rpn_cls_prob

rpn_loss_cls和rpn_loss_bbox与Fast RCNN相同，这里不赘述。

rpn_bbox_pred是bbox的预测值（实际上是以前算的偏移值）

四、proposal

这一步主要是用NMS进一步矫正region proposal。NMS在RCNN中已经介绍过了，这里不再重复。简单来说就是去重的过程。

ROI Pooling

输入为RPN层产生的region proposal和VGG提取的feature map。

由于生成region proposal时是以原图为参考的，并不能直接迁移到feature map上。将坐标值缩小16倍后，才能建立到feature map上的映射。

将feature map的映射区域划分为7*7的区域，每个区域进行max 破欧玲，生成7*7的feature map。

FC层

softmax和cls_prob计算物体的类别。
bbox_pred学习偏移量，回归出更精准的边框。

reference：

faster-rcnn原理介绍

Faster RCNN 学习笔记

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

稚与 CSDN认证博客专家 CSDN认证企业博客

码龄5年

103: 原创

25万+: 周排名

79万+: 总排名

18万+: 访问

: 等级

2295: 积分

19: 粉丝

294: 获赞

47: 评论

577: 收藏

私信

关注

热门文章

分类专栏

SLAM
OperatingSystem 1篇
ComputerNetwork 3篇
Backend 9篇
CSP 5篇
C++ 5篇
XV6 2篇
RASPBERRY PI 1篇
Django 4篇
ROS 7篇
Java 1篇
Object Detection 5篇
Python 16篇
TensorFlow 1篇
LeetCode 4篇
Linux 9篇
Algorithm 2篇
Data structure 9篇
Math 1篇
Machine learning 9篇
Deep Learning 10篇
Git 2篇

最新评论

epoch、batch、batch size和mini-batch的区别
C.Y.Q: 我们常说的batch_size其实就是minibatch。 https://wenku.csdn.net/answer/4veic02e8r?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522171591440516800186579595%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=171591440516800186579595&biz_id=&utm_medium=distribute.pc_search_result.none-task-chatgpt-2~all~first_rank_ecpm_v1~rank_v31_ecpm-7-4veic02e8r-null-null.142^v100^pc_search_result_base4&utm_term=minibatch%E5%92%8Cbatch%E7%9A%84%E5%8C%BA%E5%88%AB&spm=1018.2226.3001.4187
epoch、batch、batch size和mini-batch的区别
Abandon_Dew: minibatch还是没懂
线性回归——Linear Regression原理
Berlinblue_: 最小二乘法
epoch、batch、batch size和mini-batch的区别
李小小.: 讲明白了
bazel编译tensorflow时报错Checksum error
N6008: 请教一下，url要如何设置，我设置了Linux里的，但显示Bad URL

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。