State-of-the-art object detection networks depend on region proposal algorithms to hypothesize object locations. Advances like SPPnet and Fast R-CNN have reduced the running time of these detection networks, exposing region proposal computation as a bottleneck. In this work, we introduce a Region Proposal Network(RPN) that shares full-image net
Faster R-CNN 抛弃了 Selectave Search, 引入了 RPN 网络,使用区域提名,使得分类,回归一起共用卷积特征,从而进一步加速了检测过程。其中Faster RCNN使用了Anchor的思想对在Feature map上进行预处理,产生2w左右的候选框,使得RPN的回归变成了回归到anchor的相对位置,使得网络更加稳定。
思想
首先,Fast RCNN检测网络的主要思想:
- 使用一个简化的 SPP 层— RoI Pooling 层,操作与 SPP 相似 2. 训练和测试不再分多步
- a. 不用存储中间特征结果,可使得梯度通过 RoI Pooling 层直接传播
- b. 分类与回归用 Multi-task 的方式一起训练
- SVD :使用 SVD 分解全连接层的参数矩阵,压缩为两个规模小很多的全连接层
解决 R-CNN 和 SPP-Net 中 2000 左右候选框带来的重复计算问题。
然后,overfeat虽然是一个端到端的训练过程,最终的网络进行了分类和回归网络多任务,但在预测的时候,仍然采用的是sliding window的思想。计算复杂度同样很大,因此作者提出了一种RPN网络,共享特征提取,使得网络的效率大大提升。
Region Proposal Networks
- 基础网络采用ZF或者VGG,则feature层的深度为256-d和512-d
- 然后将feature作为reg和cls的基础特征进行预测
数字 | 解释 |
---|---|
171 | ZF模型在feature层的感受野 |
228 | VGG模型在feature层的感受野 |
256-d | ZF模型feature层的深度 |
512-d | VGG模型feature层的深度 |
3x3/1x1 | feature层后接nxn(n=3)卷积进行特征提取,后面接两个1x1卷积分别对应reg和cls层 |
k | anchor的个数,论文 k=9 ,由3个scale和3个apect ratios组层 |
4k | 对应RPN回归reg层输出的深度:[( x1,y1,w1,h1 ),( x2,y2,w2,h2 ) … ( xk,yk,wk,yk )] |
2k | 对应RPN分类cls层输出的深度:[( bg1,fg1 ),( bg2,fg2 ) … ( b |