R-FCN

最新推荐文章于 2020-12-08 17:15:12 发布

xiaochengJF

最新推荐文章于 2020-12-08 17:15:12 发布

阅读量188

点赞数

分类专栏：目标检测文章标签：深度学习目标检测计算机视觉卷积神经网络

本文链接：https://blog.csdn.net/weixin_43711554/article/details/104614710

版权

目标检测专栏收录该内容

41 篇文章 1 订阅

订阅专栏

论文：R-FCN: Object Detection via Region-based Fully Convolutional Networks （CVPR 2016）
代码：PureDiors/pytorch_RFCN

文章目录

动机

残差网(ResNets)和GoogLeNets等在分类任务中的表现优越，但在检测任务中却表现不佳。其网络结构基本由卷积层组成，随着网络变深，目标的位置信息越来越模糊，这不利于目标的定位
分类任务注重平移不变性（目标的位置不影响对其类别识别），但检测任务需要兼顾位置信息：

Faster R-CNN将RoI pooling层插入到两组卷积层之间，打破了平移不变性。创建了一个更深的RoI-wise子网，以提高准确性，但未共享每个RoI的计算而降低了速度（每个 Sample RoI 都要经过全连接层计算一遍）

改进

以ResNet101作为Backbone（采用全卷积网络），充分共享计算
去除RoIRooling层，采用PS Roi Pooling，平衡平移不变性(translation-invariance)和平移可变性(translation-variance)

Faster RCNN流程

feature_maps = process(image)
ROIs = region_proposal(feature_maps)
for ROI in ROIs
    patch = roi_pooling(feature_maps, ROI)
    class_scores, box = detector(patch)  # 含两个全连接层
    class_probabilities = softmax(class_scores)

RFCN流程

feature_maps = process(image)
ROIs = region_proposal(feature_maps)         
score_maps = compute_score_map(feature_maps)
for ROI in ROIs
    V = region_roi_pool(score_maps, ROI)     
    class_scores, box = average(V)   # 明显计算量更少               
    class_probabilities = softmax(class_scores)

R-FPN详解

在这里插入图片描述

Backbone：ResNet-101去掉最后的平均池化和全连接层，紧接着conv_5x采用 $1\times1$ 卷积将特征维度从2048降至1024，对于分类部分（回归部分类似）：

采用 $1\times1$ 卷积得到 $k^2(C+1)$ 维度的 score maps
将 roi 划分成 $k\times k$ 个bin
对不同位置的bin进行Pooling（平均），例如，下图中的第一块黄色只取左上角的bin(通道范围： $1\to C+1$ )，最后一块淡蓝色只取右下角的bin(通道范围： $C+2\to 2C+2$ )。合并得到薄的特征图，通道数 $K^2*(C+1)\to (C+1)$
在每个通道（每个通道对应一个类别）上进行vote（平均），得到 C+1 维向量，经过sofmax各类别的概率

【1】

score maps：通道为 $k^2(C+1)$ ，每个颜色块通道为 $C + 1$ ， $k^2$ 为bin数量， $C + 1$ 为类别数，以黄色层为例：负责预测目标左上角得分，黄色层的每一个像素值表示该处为一个目标的左上角的得分，所以采用的是selective pooling，下图应该非常清楚（Instance-sensitive Fully Convolutional Networks）
在这里插入图片描述