笔记:论文阅读R-FCN: Object Detection via Region-based Fully Convolutional Networks

R-FCN:基于区域的全卷积网络目标检测

摘要

与之前的基于区域的检测器(如fast/faster R-CNN)相比,本检测器几乎与整个图像上共享的所有计算全卷积。

为实现这一目标,提出了位置敏感的分数映射来解决图像分类中的平移不变性和目标检测中的平移方差之间的矛盾。

本结果达到了2.5-20倍于更快的R-CNN。

代码公开于:https://github.com/daijifeng001/r-fcn

一.介绍

流行的目标检测网络可以按 兴趣区域(ROI)划分为两个子网:独立于RoI的共享“全卷积”子网络,和不共享计算的RoI子网络。网络结构一般为 卷积层 空间池化层 全连接层。在分类网络中,空间池化层对应到RoI池化层,将分类网络转化为检测网络。

本论文主要解决问题:图像分类中的平移不变性和目标检测的平移变换性矛盾

图像分类中的平移不变性是指例如在一副图片中改变目标位置,不影响目标的判别结果。

目标检测中的平移变换性是指改变目标位置,需要目标定位的变换响应,比如候选框与目标的重叠程度。

假设网络越深,位置敏感性越差。针对以上问题,解决上述矛盾,提出了一种基于区域的全卷积网络(R-FCN)。此网络由共享的、完全卷积的体系结构组成,像FCN一样。为了将评平移变换性引入FCN,利用一组特殊卷积层作为FCN的输出,构造了一组位置敏感的分数map。这些分数map中的每一个都编码了相对于空间位置的位置信息(例如,“对象的左侧”)。在这个FCN的基础上,附加了一个位置敏感的RoI池层,该层从这些得分图中传递信息,无全连接层。

此结构是端到端学习的,所有可学习层都是卷积的,并在整个图像上共享。

主要结构如下图:

选出图片建议区域图。然后对此区域图进行全图卷积,最后一层卷积层为每个类别(C个)生成K方个位置敏感得分图,此得分图通道为k方*(C+1)。K方个得分图分别对应K*K的位置信息,如左上,上中,,,。然后接着R-FCN的最后一层是对位置敏感的ROI 池化层。对于每个ROI感兴趣区域,由K*K个得分图组成,然后进行池化,从K*K的bins中得到一个类别值,用于此ROI的类别判断,如下图。

注:ROI Pooling

本文中R-FCN的实验是基于ResNet-101的,其他网络也适用。ResNet-101有100个卷积层,后面是全局平均池化和1000类fc层。去掉平均池层和fc层,只使用卷积层来计算特征映射。ResNet-101中的最后一个卷积块是2048维(-d),我们附加了一个随机初始化的1024维(-d) 1×1卷积层以减小尺寸,总共101层。然后应用k2(C+1)信道卷积层来生成分数图,如下所述。

为了将位置信息显式地编码到每个RoI中,我们用规则的网格将每个RoI矩形划分为k×k个像素。对于大小为w×h的RoI矩形,bin的大小为≈w/k×h/k。在 (i,j)个 bin 上的 position RoI pooling 操作定义为:

 

这里rc(i,j)是第c类的第(i,j)个bin中的集合响应,zi,j,c是k2(c+1)个评分映射中的一个评分映射,(x0,y0)表示RoI的左上角,n是bin中的像素数,并且Θ表示网络的所有可学习参数。第(i,j)个bin的范围为

二。训练

损失函数是交叉熵损失和bounding box回归损失的总和

c*是ground-truth标签(c*=0表示背景)。Lcls(sc∗)=-log(sc∗)是用于分类的交叉熵损失,Lreg是[6]中定义的bounding  box回归损失,t∗代表ground-truth。[c∗>0]是一个指标,如果参数为真,则等于1,否则等于0。

三。实验

实验结果如图:

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值