py-faster rcnn中rpn的3x3的滑框用卷积层来定义的是为什么?

1.卷积操作本身就是一个卷积核(滑动窗口)在特征图(图像)的滑动操作。
2.这里滑动窗口的目的是为了取每个窗口的特征:
  对于VGG16,最后一个卷积层(conv5_3)的feature map个数为512,使用3x3的卷积核可以每张feature map上获取一个1x1的特征,总共是512的一个特征向量,这个向量也就是当前滑窗对应的特征。
3.为什么使用3x3的滑窗而不是2x2或者其他,个人理解:因为3x3在原图像的感受野是228x228, 对于尺度为128,256, 512的anchor设计来说,对于128x128的region proposal, 228x228是个很不错的选择(包含了上下文信息), 256尺度的跟228差不多, 512x512的只利用了中心的228x228的特征(虽然不是很好,但也凑合), 所以选择3x3的滑窗也算是一个技巧,目的是让这个滑动窗口的感受野跟region proposal的尽可能接近,这样去分类和做窗口回归才会更准.

参考:http://caffecn.cn/?/question/449

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值