OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

可以参考博文:http://blog.sciencenet.cn/blog-1583812-844178.html
(大概了解一下,没仔细看)
文章发表在ICLR2014,yan Lecun实验室。提出了一个用卷积网络进行分类、定位和检测的联合框架。介绍了如何在一个ConvNet中有效实现多尺度和滑动窗口。为提高检测的置信度,bounding box被累积而不是抑制。文章表明不同任务能够在一个共享网络中同时学习。该集成框架在ILSVRC2013中成为winner,得到了检测和分类任务近似最好的性能。最后,文章从最好的模型中析取出一个特征提取器称为overfeat。
尽管ImageNet dataset的图像大多近似以对象为中心,并占图像的大部分空间。但是感兴趣的对象在一张图像中有时在size和position上有很大变化。有三种思想进行处理:一种是,在图像中以滑动窗口和多尺度的方式在图像的多个位置应用ConvNet。这种方法的一个问题是,一些视觉窗口可能包含的是对象的完美可识别部分(比如狗的头),而不包含整个图像或者不以对象为中心。第二种想法是,训练的系统不仅对每个窗口产生类别分类,而且产生包含对象的boundong box的位置和大小。第三个想法是对每个位置和大小的每个类别置信度进行累积。

3 分类

3.1 模型设计和训练

每个图像被降采样成短边为256个像素,抽取5个大小为221*221的crops,并且进行水平翻转,mini-batches size:128。权重随机初始化:均值0,方差0.01.随着SGDgen更新,momentum:0.6,l2权重衰减:0.00001.学习率初始为0.05,在(30,50,60,70,80)后通过因子0.5衰减。dropout ratio 0.5应用到最后的全连接层(6th,7th)。网络结构如下:
这里写图片描述
值得注意的是,相比较于产生空间输出的inference step,作者把这个结构看成是非空间的(output map是1*1的)。1-5层和Krizhevsky et al.[11]相似,都采用ReLu和max pooling,但是有以下不同:(1)没有使用对照规则化;(2)池化区域是非重叠的;(3)由于较小的Stride(2而不是4),1和2层有较大的feature map,大Stride对速度有益,但是会损害精度。

3.2 Multi-scale classification

在[11]中,多角度投票能够提高性能,10个角度(四个角及中心,和水平翻转)。这种方法不仅会忽略图像的某些区域,而且如果视角重叠,会造成计算冗余。另外,只应用在单个scale上,这个尺度可能不能使ConvNet产生最优的置信度。然而,作者在整个图像的每个位置和多个尺度上稠密运行网络。尽管滑动窗口的方法对某些类型的模型在计算上是不允许的,但是,这种方法明显产生了更多的投票角度,在保持计算效率的同时增加了鲁棒性。在每一个尺度下,一个任意大小的图像运行ConvNet的结果是一个C维的空间Map.
网络整体采样率是2*2*3*3=36(其中第一个2,是由conv1的stride 2引起的,其他的是pooling层的作用)。因此,当稠密应用网络的时候,该结构能够沿着每一个轴为输入维度上36个像素产生一个分类向量。这种粗糙的输出分布相比较于10视角的机制性能有很大的下降,因为这种网络窗口不能很好的和图像中的对象对齐。网络窗口和对象对齐越好,网络响应的置信度就越高。为了解决这个问题,作者采用[6]提供的方法避免了最后一个降采样操作,产生的降采样率是x12,而不是x36。
分辨率增广细节(下图非常详细):
这里写图片描述
这里写图片描述
a)给定image,给定scale,从unpooled layer 5 feature map 开始;
b)每个unpooled map进行3x3 max pooling(non-overlapping),repated 3x3 次对offset {0,1,2}
c)对不同的x,y offset 组合,重复3x3次产生了pooled map集合;
d)分类器(layer 6,7,8)的固定输入大小是5x5,产生C-dimensional output vector 对一个pooled maps。
e)不同的x,y offset组合被reshape成3D output map.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值