Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
本文是任少卿,何恺明等发表在NeurIPS 2015上的关于object detection中Fast R-CNN的改进。
原文链接arxiv: http://arxiv.org/abs/1506.01497
github: https://github.com//jwyang/faster-rcnn.pytorch
发展过程R-CNN --> Fast R-CNN --> Faster R-CNN。
网络结构
主要有三块网络
Faster R-CNN是在Fast R-CNN基础上加上RPN,可以快速生成候选区域。主要结构如下:
1. Region Proposal Networks
RPN网络是解决region proposal的问题,输入是一副图像,输出的是region proposal,这里输入图像是feature map。实际上和Fast RCNN共享了下面的卷积层。
在论文中是用了3×3的窗口对feature map进行卷积,这里feature map上一个点就可以映射回原图的一个区域,每一次卷积得到的值也就是原图中的一个区域。
下面有个图片看起来更清晰一点。
这里就牵扯到anchor了。
上面卷积的时候每个点一个region proposal太简略了,现在不只是要用卷积对应原图的区域,而是要以此区域中心店为中心学习多个不同尺度不同长宽比的区域,这样的区域就是个anchor。也就是所谓的锚点,可能就是因为以有一个中心点。
论文中提到用了3种尺度和3种比例,所以一个中心点对应了9个anchor,每个anchor对应原图的一个区域,要学习的就是这个区域的分类(二分类 前景/背景)和框回归(关于box的4个参数),所以如上图有k个anchor时有2k分类score和4k回归坐标。
使用的anchor面积尺寸分别有128×128,256×256,512×512,三种长宽比有1:1,1:2,2:1,如下图这种
【待更新…】
reference: