Faster R-CNN详解

一:算法的基本结构

二:算法的主要流程和内容

Faster RCNN其实可以分为4个主要内容:

  1. Conv layers。这一层的作用是将图片输入,通过Conv layers部分,共有13个conv层(卷积层),13个relu层(激活层),4个pooling层(池化层),得到对应的特征图(feature map)。同时对于conv层需要设置宽边处理,这样才可以保证conv层和relu层在3*3卷积处理下不改变对应的输入和输出矩阵大小,将特征图和原图对应起来。每一个经过pooling层的长宽都变成输入的1/2。最终经过conv layer处理的图片都变成原来图片大小的1/16。该feature maps被共享用于后续RPN层和全连接层。
  2. Region Proposal Networks。Faster RCNN改进了传统的滑动窗口和selective search方法,直接使用RPN网络用于生成检测框。RPN最终会在原尺度图上,设置密密麻麻的anchor,然后利用CNN网络去判断那些anchor里面有目标 foreground anchor,并且进行回归得到精准的proposal。这也是Faster RCNN的巨大优势,能极大提升检测框的生成速度。这一层一共有两条路线,第一条是通过3*3的卷积层得到特征图中每一个点的对应的9个anchors,然后通过一个1*1的卷积将图像乘以18,然后通过softmax分类器判断已有的anchors属于foreground还是background,得到foreground anchor。第二条路就是将每一个点对应的9个anchor,然后通过一个1*1的卷积将图像乘以36,每个anchor得到4个用于回归的变换量。接着将两条路线整合到一起,利用proposal layer,负责综合所有的变换量和foreground anchors,计算出精准的proposal,送入后续的ROI pooling。
  3. Roi Pooling。该层收集输入的feature maps和proposals,综合这些信息后提取proposal feature maps,送入后续全连接层判定目标类别。这一层的作用就是将输入的不是固定尺寸的特征图转换成固定尺寸的特征图。
  4. Classification。利用已经有的proposal feature maps通过全连接层(full connect)与softmax函数计算出每个proposal的具体类别,输出cls-prob概率向量。同时再次bounding box regression获得每个proposal的位置偏移向量box-pred,用于回归更加精确的目标检测框。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值