ImageNet2017 周记之第一周

首先,是调研,自己之前使用CNN做的都是分类任务,对检测了解一些,但是了解的不多,所以看了许多论文和一些博客。按照CNN 做目标检测的时间发展顺序介绍。

RCNN,首先使用selectivesearch得到许多候选框,然后将这些候选框resize到一个固定相同的大小,使用CNN 预训练的网络提取特征,每个特征都对应一个SVM 分类器,判别该类属于类别,使用一个线性脊回归器进行精修框的位置。特点是:每个图都要使用许多候选框过CNN网络,时间消耗比较多,而且每次都要将feature存下来,训练SVM,训练过程比较麻烦。

SPP,SPP特点是将传统方法中的金字塔模型应用到CNN网络中,可以说是给ROIpooling做了铺垫,作者认为无论大物体还是小物体,都resize到一个固定的尺寸,是不合理的,效果不好;他指出之所以RCNN会将所有图片resize到一个固定尺寸,是因为使用CNN网络提取特征时,全连接的输入要一致。但是有一点,CNN网络的卷积层是不用要求输入的图片大小一致,基于此,作者使用spatialpyramid pooling layer,将任意尺寸的图片经过spplayer之后 concat到一个固定的长度,作为全连接的输入。同时,SPP 将原图作为输入,只使用CNN对原图做一次提取feature操作,时间大大缩短。

Fast-RCNN,看到SPP net 在时间消耗上取得显著提高,Fast RCNN 在之前RCNN 的基础上,引入了ROIpooling, 整张图片作为输入,只是当ROIpooling时,才引入proposal,相当于proposal在前面几层卷积之前,并没有重复提取特征。这一步就降低了计算的复杂度,同时不再对feature 再使用SVM 分类器,取而代之的是SoftMax。时间提升好多。

Faster-RCNN,引入RPN,不再使用预先选好的候选框,而是在训练的时候,针对每个像素点,产生9个anchors,先训练RPN产生候选框,然后对候选框再训练FastRCNN,再训练RPN,再训练FastRCNN。这个方法是去年参加ImageNet2016使用的框架。

YOLO,与其他需要proposal的方法不同,YOLO直接拿整张图片作为输入,直接在输出层回归boundingbox的位置和boundingbox所属的类别,将ObjectDetection 的问题转化成一个Regression 问题。这样做的目的是速度非常快,但是必然会牺牲精度。

MSCNN,行人检测使用的框架,其基本思想是多尺度,因为不同的featuremap对应原图的区域是不同的,这样,作者就对每个不同卷积层后面都接一个反卷积操作,因为不同conv层,feastride也不同,这也就是使用了多尺度。

SSD,这也是使用多尺度训练的方法,和其他目标检测都需要proposals不同的是,SSD不提取proposal操作,对一张原图,和它对应的groundtruth直接训练,网络结构要求图片输入尺寸一定,有300*300,500*500,使用vgg16作为基网络,使用5个不同的scale,和MSCNN挺像。

RFCN,全卷积,再FasterRCNN 的基础上,将fc层变成卷积层,最后卷积层输出的featuremap 经过类似roipooling 的池化操作,变为cls+1个类,和2*4个框。并且加入OHEM(OnlineHard Example Mining)训练分类和回归框。这个是今年参加ImageNet选用的框架。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值