ImageNet2017 周记之第一周

最新推荐文章于 2022-12-08 13:35:28 发布

xjc864588399

最新推荐文章于 2022-12-08 13:35:28 发布

阅读量694

点赞数

分类专栏： caffe 深度学习论文翻译文章标签： cnn ImageNet

本文链接：https://blog.csdn.net/xjc864588399/article/details/74393292

版权

深度学习同时被 3 个专栏收录

10 篇文章 0 订阅

订阅专栏

caffe

7 篇文章 0 订阅

订阅专栏

论文翻译

2 篇文章 0 订阅

订阅专栏

首先，是调研，自己之前使用CNN做的都是分类任务，对检测了解一些，但是了解的不多，所以看了许多论文和一些博客。按照CNN 做目标检测的时间发展顺序介绍。

RCNN，首先使用selectivesearch得到许多候选框，然后将这些候选框resize到一个固定相同的大小，使用CNN 预训练的网络提取特征，每个特征都对应一个SVM 分类器，判别该类属于类别，使用一个线性脊回归器进行精修框的位置。特点是：每个图都要使用许多候选框过CNN网络，时间消耗比较多，而且每次都要将feature存下来，训练SVM，训练过程比较麻烦。

SPP，SPP特点是将传统方法中的金字塔模型应用到CNN网络中，可以说是给ROIpooling做了铺垫，作者认为无论大物体还是小物体，都resize到一个固定的尺寸，是不合理的，效果不好；他指出之所以RCNN会将所有图片resize到一个固定尺寸，是因为使用CNN网络提取特征时，全连接的输入要一致。但是有一点，CNN网络的卷积层是不用要求输入的图片大小一致，基于此，作者使用spatialpyramid pooling layer,将任意尺寸的图片经过spplayer之后 concat到一个固定的长度，作为全连接的输入。同时，SPP 将原图作为输入，只使用CNN对原图做一次提取feature操作，时间大大缩短。

Fast-RCNN，看到SPP net 在时间消耗上取得显著提高，Fast RCNN 在之前RCNN 的基础上，引入了ROIpooling，整张图片作为输入，只是当ROIpooling时，才引入proposal，相当于proposal在前面几层卷积之前，并没有重复提取特征。这一步就降低了计算的复杂度,同时不再对feature 再使用SVM 分类器，取而代之的是SoftMax。时间提升好多。

Faster-RCNN，引入RPN，不再使用预先选好的候选框，而是在训练的时候，针对每个像素点，产生9个anchors，先训练RPN产生候选框，然后对候选框再训练FastRCNN，再训练RPN，再训练FastRCNN。这个方法是去年参加ImageNet2016使用的框架。

YOLO，与其他需要proposal的方法不同，YOLO直接拿整张图片作为输入，直接在输出层回归boundingbox的位置和boundingbox所属的类别，将ObjectDetection 的问题转化成一个Regression 问题。这样做的目的是速度非常快，但是必然会牺牲精度。

MSCNN，行人检测使用的框架，其基本思想是多尺度，因为不同的featuremap对应原图的区域是不同的，这样，作者就对每个不同卷积层后面都接一个反卷积操作，因为不同conv层，feastride也不同，这也就是使用了多尺度。

SSD，这也是使用多尺度训练的方法，和其他目标检测都需要proposals不同的是，SSD不提取proposal操作，对一张原图，和它对应的groundtruth直接训练，网络结构要求图片输入尺寸一定，有300*300，500*500,使用vgg16作为基网络，使用5个不同的scale，和MSCNN挺像。

RFCN，全卷积，再FasterRCNN 的基础上，将fc层变成卷积层，最后卷积层输出的featuremap 经过类似roipooling 的池化操作，变为cls+1个类，和2*4个框。并且加入OHEM（OnlineHard Example Mining）训练分类和回归框。这个是今年参加ImageNet选用的框架。

xjc864588399

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ImageNet2017 周记之第一周

首先，是调研，自己之前使用CNN做的都是分类任务，对检测了解一些，但是了解的不多，所以看了许多论文和一些博客。按照CNN 做目标检测的时间发展顺序介绍。RCNN，首先使用selectivesearch得到许多候选框，然后将这些候选框resize到一个固定相同的大小，使用CNN 预训练的网络提取特征，每个特征都对应一个SVM 分类器，判别该类属于类别，使用一个线性脊回归器进行精修框的位置。特点是
复制链接

扫一扫