Faster R-CNN中RPN为什么能进行候选区域提取?

因为还没搞清楚,所以以下内容有猜测成分。

  • 对于models\rpn_prototxts\ZF\train_val.prototxt,当输入图像“data”的尺寸是224*224*3时,那么前向传播过程中conv_5的输出的blob的维度就是15*15*256*1,其中15*15是特征图的大小,256是特征图的通道数。
  • 接下来,conv_5层的输出作为conv_proposal1层的输入,conv_proposal1的输出也是15*15*256*1,这一步的作用就是Faster R-CNN论文中所说的3*3的滑动窗口,也就是提取15*15个256d的特征向量。然后,论文中说,该特征向量输出给两个同级的全连接层,也就是proposal_cls_score层和proposal_bbox_pred层,这两个层实现为1*1的卷积层。
  • proposal_cls_score层的输出数据维度为15*15*18*1,proposal_bbox_pred层的输出数据维度为15*15*36*1,这里15*15意义同上,18则对应9个anchors的分类信息(前景 / 背景),36则对应于9个anchors的参数化坐标(所谓参数化坐标,也就是并非实际意义上的坐标。论文中有提到其公式)。
  • 为什么rpn能够进行候选区域提取?我还搞不懂,只能猜一下。我不明白深度学习的机理,但试图用已有的理解去拟合它。监督学习的算法,是给定一定数量的(x,y)数据对,以此作为输入数据,然后让模型的参数自动调整,以更好地拟合这种函数关系。那么类似地,在训练RPN时,输入一张图像,前向传播到proposal_bbox_pred层会输出了一个结果,这个结果与我们事先确定的标签,也就是前景区域的坐标进行比对,计算误差。然后反向传播,调整模型参数,以使该误差降低。当误差降到一定程度时,proposal_bbox_pred层的输出就约等于候选区域的坐标。
  • 是否可以这么认为:在训练之前,模型在proposal_bbox_pred的输出没有明确的意义,而在标签信息限制下的训练过程才使得该输出具有了一定的意义。那么,进一步是不是可以认为,深度学习的方法是:只要给定准确的训练的数据,那么即使在模型很模糊(未明确实际意义)的情况下,也能强行将该之训练成那种输出具有“实际意义”的模型?
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Faster R-CNNRPN(Region Proposal Network)是一种用于生成候选目标框的子网络。RPN的主要目标是通过在输入图像上滑动一个小的窗口(称为锚框),对每个锚框进行分类和回归,从而生成候选目标框。 RPN的工作流程如下: 1. 输入图像通过基础的卷积神经网络(通常是共享特征提取网络)进行特征提取,并获得一系列特征图。 2. 对于每个位置,在特征图上生成多个不同尺度和宽高比的锚框。这些锚框覆盖了输入图像的不同区域,并提供了不同尺度和宽高比的候选目标框。 3. 对于每个锚框,RPN通过一个分类分支和一个回归分支来预测其是否包含一个对象以及调整其边界框的位置。分类分支输出两个概率,表示锚框是前景(包含目标)或背景(不包含目标)的概率。回归分支则用于预测锚框相对于真实目标框的位置调整。 4. 根据分类分支的前景概率和回归分支的位置调整,选择具有高概率且经过位置调整的锚框作为候选目标框。 5. 最后,通过非极大值抑制(NMS)来消除高度重叠的候选目标框,以生成最终的目标检测结果。 RPN通过共享特征提取网络和锚框的多尺度生成,实现了高效的目标检测框架。它能够在不同尺度和宽高比的锚框上进行准确的目标分类和位置回归,从而提供了丰富的候选目标框供后续的目标检测任务使用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值