R-FCN(2016)

在这里插入图片描述

introduction

本文提出了一种基于区域的全卷积神经网络用于目标检测,取得了与Faster R-CNN差不多的精度,但在训练和推理方面表现更好。FCN有两个亮点:

  • 不同于Fafster RCNN ,执行上百次代价高昂的RoI,FCN全卷积几乎共享在整张图像上的计算
  • 提出了位置敏感score maps用于解决图像分类的平移不变性目标检测任务的平移同变性之间的矛盾。(因为网络既要用于分类又要用于检测)
平移不变性(translation -invariance)是指目标的平移不会对结果产生影响。在图像分类任务中,一张图像无论怎么移动,最后识别label应该都是一样的,而卷积神经网络就具有这种特性,由于卷积神经网络的参数共享机制,在提取特征的时候,无论该特征位于图像什么位置(即无论如何移动:翻转,旋转等),都能正确 识别、提取特征。同时,随着卷积层数的增加,最后一层卷积输出的特征映射会将变小,经过多层采样,物体在输入上的小偏移在最后的小尺寸特征映射图上将无法被感知,即平移不变性加强了。

池化层,也具有局部平移不变性,例如3X3的最大池化,在给定的3X3感受野范围内,无论像素位置如何移动,最后输出的都是最大的那个值,一旦超出这个范围,就不再具有不变性,GAP(全局平局池化)就拥有全局平移不变性,因为它是在整个特征映射上做平均池化。

与不变性对应的叫作平移可变(同变)性(translation -variance),目标检测任务中就需要平移可变性,一个物体在图像中的位置发生了移动,那么对用的边界框坐标也要跟着变化。随着卷积网络加深,平移不变性会增强,平移可变性会变差,这就导致了分类和检测的矛盾。
根据论文,当前流行的目标检测网络(Fater R-CNN 、Fast RCNN)基于之对应网络可以分为两种: 1. 独立于RoIs 的全卷积网络,共享计算 2. 不共享计算的RoI子网络 这是由之前的卷积网络AlexNet等结构延续下来的,一个卷积结构(末尾使用空间池化)+几个全连接层,因此图像分类任务中的空间池化层自然而然的被转换成目标检测任务中的RoI 池化层。
Network

在这里插入图片描述

图1 R-FCN网络结构

FCN由共享的、全卷积的架构组成,为了将平移同变性引入FCN,作者使用一组专门的卷积层构造了一组位置敏感的分数图作为FCN的输出。每一个分数图都是用相对空间位置进行位置信息编码。上图中不同颜色分数图对应不同的空间位置。在FCN之后,附加一个位置敏感的RoI池化层从这些分数图中获取信息(之后没有权重层【卷积或全连接】)。整个结构都是端到端学习的,所有可学习的层都是卷积层,在整个图像上计算共享。由于对目标检测的空间信息进行了编码,R-FCN作为一个全卷积神经网络,仍然具有平移同变性。

使用101层的ResNet作为backbone,R-FCN在PASCAL VOC2007上取得了83.6%mAP,同时检测速度达到170ms/一张图像,比起同样使用ResNet101的Faster R-CNN 速度要快2.5–20倍。

Overview Architecture

在这里插入图片描述

图2 R-FCN 框架结构

遵循类似RCNN的两阶结构:

  1. region proposal
  2. region classification
    通过RPN区域建议网络来提取候选框,该网络本事是一个全卷积网络,之后在RPN与R-FCN之间共享了特征。上图展示了系统总体框架。

在给定建议区域RoIs的情况下,R-FCN结构被设计将RoIs分为目标类别和背景。在R-FCN中,所有的可学习参数都是卷积且在整张图像进行计算。最后一个卷积层为每一个类别输出 K 2 K^2 K2个位置敏感的分数图,因此有一个 K 2 ( C + 1 ) K^2(C+1) K2(C+1)个通道的输出层(C:目标类别数目+ 1:背景)。 K 2 K^2 K2个分数图对应于描述位置的 K ∗ K K*K KK个空间网格。例如, K ∗ K = 3 ∗ 3 K*K=3*3 KK=33,9个分数图编码了一个对象类别的{top-left, top-center, top-right, …, bottom-right}等位置。例如person类,person边界框的中上位置总是与人的头部相对应,因此对于原始输入图像与person类别对应的特征图训练,尽可能是使得特征图中中上位置与person对应的点的得分高一点。

R-FCN以一个位置敏感的RoI池化层作为末端。这一层聚集了最后一个卷积层而输出,并为每个RoI生成生成分数。在图2中9个特征图,这些特征图上每个特征点上的值对应该点所属位置的得分。

位置敏感score map && 位置敏感 RoI 池化

为了显示的将位置信息编码到每一个RoI,把每一个RoI分割成 K ∗ K K*K KK个矩形格子。对于一个尺寸为 w ∗ h w*h wh的长方形RoI来说,一个格子的尺寸为 w k ∗ h k \frac{w}{k}*\frac{h}{k} kwkh.最后一个卷积层为每一个类别生成 K 2 K^2 K2个分数图,在第 ( i , j ) (i,j) (i,j)个格子 ( 0 ≤ i , j ≤ k − 1 ) (0\le i,j\le k-1 ) (0i,jk1),定义一个位置敏感的池化层只在第 ( i , j ) (i,j) (i,j)个分数图上进行平均池化操作:
r c ( i , j ∣ Θ ) = ∑ ( x , y ) ∈ b i n ( i , j ) z i , j , c ( x + x 0 , y + y 0 ∣ Θ ) / n − − − − ( 1 ) r_c(i,j|\Theta )=\sum_{(x,y)\in bin(i,j)}z_{i,j,c}(x+x_0,y+y_0|\Theta )/n ---- (1) rc(i,jΘ)=(x,y)bin(i,j)zi,j,c(x+x0,y+y0Θ)/n(1)
这里 r c ( i , j ) r_c(i,j) rc(i,j)指在第C个类别的第 ( i , j ) (i,j) (i,j)格子的池化响应, z i , j , c z_{i,j,c} zi,j,c K 2 ( C + 1 ) K^2(C+1) K2(C+1)个score map中的一个score map 输出。 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)代表RoI的左上角(top-left),遍历RoI的起点,n是格子(bin)中的像素个数,用来求平均。 Θ \Theta Θ表示网络中所有的可学习参数。第 ( i , j ) (i,j) (i,j)个格子保持 [ i w k ] ≤ x < [ ( i + 1 ) w k ] a n d [ j h k ] ≤ y < [ ( j + 1 ) h k ] [i\frac{w}{k}]\le x <[(i+1)\frac{w}{k} ]and [j\frac{h}{k} ]\le y <[(j+1)\frac{h}{k}] [ikw]x<[(i+1)kw]and[jkh]y<[(j+1)kh]. 具体操作如图1所示。一种颜色表示一对 ( i , j ) (i,j) (i,j),公式1执行了平均池化,但是最大池化结果也不错。

接着这 K 2 K^2 K2个位置敏感的分数对RoI进行投票(Vote)。本文中简单的通过平均分数来进行投票,为每一个RoI产生一个 ( C + 1 ) (C+1) (C+1)维的向量: r c ( Θ ) = ∑ ( i , j ) r c ( i , j ∣ Θ ) r_c(\Theta)=\sum_{(i,j)}r_c(i,j|\Theta) rc(Θ)=(i,j)rc(i,jΘ)

然后计算跨类别softmax: s c ( Θ ) = e r c ( Θ ) / ∑ c ′ = 0 C e r c ′ ( Θ ) s_c(\Theta)=e^{r_{c}(\Theta)}/\sum_{c^{\prime }=0}^{C}e^{r_{c^{\prime}}(\Theta)} sc(Θ)=erc(Θ)/c=0Cerc(Θ) 用于评估训练过程中的交叉熵损失,并用于在推理过程中对RoI进行排序。

作者使用类似的方法解决了bounding box回归。除了之前的 K 2 ( C + 1 ) K^2(C+1) K2(C+1)维的卷积层之外,增加了一个 4 K 2 4K^2 4K2维的卷积层用于bounding box回归,在这个 4 K 2 4K^2 4K2的maps上执行位置敏感的RoI池化,为每一个RoI生成一个 4 k 2 4k^2 4k2的向量。然后通过平均VOTE汇聚成一个4-d向量。这个4-d向量参数化一个bounding box 为 t = ( t x , t y , t w , t h ) t=(t_x,t_y,t_w,t_h) t=(tx,ty,tw,th)表示建议框的坐标。为了简单起见,执行与类无关的边界框回归,但特定类的边界框回归也是可行的。

在RoI池化层之后没有需要学习的层,它引导目标检测的分数图的学习,从而实现了几乎零成本的区域计算,加快了训练和推理。

在这里插入图片描述

图3 位置敏感的RoI池化保留正样本(up)&位置敏感而RoI池化过滤负样本(down)

可视化正确/不正确位置敏感分数图,位置敏感的分数图作为位置敏感的RoI池化层的输入,在RoI pooling中,对RoI中不同位置区域对应的分数图上进行池化操作,例如在RoI左上区域在位置敏感的分数图中表示对左上区域进行池化。该层最后输出 K ∗ K ∗ ( C + 1 ) K*K*(C+1) KK(C+1)的位置敏感的聚合RoI。

在聚合的RoI上进行投票是一个简单的平均值计算过程,即对C+1个KxK区域的值求平均,得到一个C+1维的向量,使用softmax函数计算最终类别。

损失函数

位置敏感的RoI损失函数包括分类交叉熵损失与边界框回归损失两部分:
L ( s , t x , t y , t w , t h ) = L c l s ( s c ∗ ) + λ [ c ∗ > 0 ] L r e g ( t , t ∗ ) L(s,t_x,t_y,t_w,t_h)=L_{cls}(s_{c*})+\lambda [c^{*}>0]L_{reg}(t,t^{*}) L(s,tx,ty,tw,th)=Lcls(sc)+λ[c>0]Lreg(t,t)
其中, c ∗ c^* c是RoI的真实类别标签, c ∗ = 0 c^*=0 c=0表示背景。若RoI为背景,则边界框回归损失的系数将变为0. L c l s ( s c ∗ ) = − l o g ( s c ∗ ) L_{cls}(s_{c*})=-log(s_{c*}) Lcls(sc)=log(sc)表示分类交叉熵损失, s c ∗ s_{c*} sc表示以anchor i为目标得预测概率。

L r e g L_{reg} Lreg和Fast R-CNN中的边界框回归损失一样,是一个smooth L1损失。
R-FCN训练过程中也使用了难负样本挖掘方法,同样使用4步训练法交替训练RPN与R-FCN。

实验结果

在这里插入图片描述

建议阅读这篇文章https://zhuanlan.zhihu.com/p/30867916

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
R-FCN(Region-based Fully Convolutional Networks)是一种用于目标检测的深度学习网络模型。它是基于全卷积网络(Fully Convolutional Networks)和区域建议网络(Region Proposal Networks)的结合。R-FCN 在目标检测任务上取得了较好的性能。 关于 R-FCN 的 Matlab 实现,你可以参考以下步骤: 1. 下载 R-FCN 的源代码。你可以在 GitHub 上找到一些开源实现,如 https://github.com/daijifeng001/R-FCN 或者其他类似的仓库。 2. 安装 Matlab 并配置深度学习框架。Matlab 支持多种深度学习框架,如 TensorFlow、PyTorch、Caffe 等。根据你选择的 R-FCN 实现,安装对应的深度学习框架并配置 Matlab 的环境。 3. 加载预训练模型。R-FCN 需要在大规模数据集上进行预训练,你需要下载相应的预训练模型,并将其加载到 Matlab 中。 4. 准备数据集。为了使用 R-FCN 进行目标检测,你需要准备一个目标检测数据集,包括图像和标注信息。确保数据集格式与 R-FCN 的输入要求相符。 5. 运行训练代码。根据你选择的 R-FCN 实现,运行相应的训练代码来训练网络模型。你可能需要调整一些训练参数,如学习率、批大小等。 6. 进行目标检测。训练完成后,你可以使用 R-FCN 进行目标检测。提供待检测图像作为输入,R-FCN 将输出目标类别和位置信息。 请注意,以上步骤仅提供了一般的指导,具体实现可能因不同的 R-FCN 实现而有所差异。在实际操作中,请参考相应的文档和代码示例,以确保正确实现 R-FCN 网络。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值