接下来看论文中给出的模型整体结构图:Faster R-CNN,由两个模块组成。第一个模块是提出区域的深度全卷积网络,第二个模块是使用提出的区域的快速R-CNN检测器。相比于原始的fast R-cnn,faster R-cnn 添加了区域建议网络RPN,RPN模块告诉Fast R-CNN模块去哪里看。
接下来看一看RPN的结构及具体实现步骤:
faster R-cnn直接在特征图上进行候选框的选择,如上图,而RPN就是对于输入的图片,输出一批矩形区域的提名,每一个区域都会对应目标的分数和位置信息。也就是在特征图上的每个点上成成一些anchor,之后用分类器判断 anchor包含的物体是前景还是背景,此外还要用一个回归模型来判断anchor的精细位置。
上图中的RoI Pooling,它是将感兴趣区域(ROI)池化到固定大小,再送入分类器,即兴趣域池化,用于收集RPN生成的proposals即每个预测框的坐标,并从卷积得到的feature maps中将对应预测位置提取出来,生成proposals feature maps送入后续全连接层继续做分类(预测框具体是哪一类别)和回归。