RPN的原理图如下图所示:
RPN的结构是在已有的网路结构(例如VGG)的最后一层上添加如下图的新层。以VGG为例,下图中每部分的具体结构为:
1. conv feature map:在VGG的conv5_3后新添加的一个512x3x3的卷基层。
RPN的结构是在已有的网路结构(例如VGG)的最后一层上添加如下图的新层。以VGG为例,下图中每部分的具体结构为:
1. conv feature map:在VGG的conv5_3后新添加的一个512x3x3的卷基层。
2. K anchor boxes:
在每个sliding window的点上的初始化的参考区域。每个sliding window的点上取得anchor boxes都一样。只要知道sliding window的点的坐标,就可以计算出每个anchor box的具体坐标。faster-RCNN中 k = 9,先确定一个base anchor,大小为16x16,保持面积不变使其长宽比为(0.5,1,2),再对这三个不同长宽比的anchor放大(8,16,32)个尺度,一共得到9个anchors。
3. intermediate layer: