OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

最新推荐文章于 2020-03-26 21:29:41 发布

CH-Yuan

最新推荐文章于 2020-03-26 21:29:41 发布

阅读量922

点赞数

分类专栏：深度学习论文阅读

本文链接：https://blog.csdn.net/yuanchheneducn/article/details/50955684

版权

深度学习论文阅读专栏收录该内容

24 篇文章 1 订阅

订阅专栏

可以参考博文：http://blog.sciencenet.cn/blog-1583812-844178.html
（大概了解一下，没仔细看）
文章发表在ICLR2014,yan Lecun实验室。提出了一个用卷积网络进行分类、定位和检测的联合框架。介绍了如何在一个ConvNet中有效实现多尺度和滑动窗口。为提高检测的置信度，bounding box被累积而不是抑制。文章表明不同任务能够在一个共享网络中同时学习。该集成框架在ILSVRC2013中成为winner,得到了检测和分类任务近似最好的性能。最后，文章从最好的模型中析取出一个特征提取器称为overfeat。
尽管ImageNet dataset的图像大多近似以对象为中心，并占图像的大部分空间。但是感兴趣的对象在一张图像中有时在size和position上有很大变化。有三种思想进行处理：一种是，在图像中以滑动窗口和多尺度的方式在图像的多个位置应用ConvNet。这种方法的一个问题是，一些视觉窗口可能包含的是对象的完美可识别部分（比如狗的头），而不包含整个图像或者不以对象为中心。第二种想法是，训练的系统不仅对每个窗口产生类别分类，而且产生包含对象的boundong box的位置和大小。第三个想法是对每个位置和大小的每个类别置信度进行累积。

3 分类

3.1 模型设计和训练

每个图像被降采样成短边为256个像素，抽取5个大小为221*221的crops，并且进行水平翻转，mini-batches size:128。权重随机初始化:均值0，方差0.01.随着SGDgen更新，momentum:0.6,l2权重衰减：0.00001.学习率初始为0.05，在（30,50,60,70,80）后通过因子0.5衰减。dropout ratio 0.5应用到最后的全连接层（6th,7th）。网络结构如下：
这里写图片描述
值得注意的是，相比较于产生空间输出的inference step，作者把这个结构看成是非空间的（output map是1*1的）。1-5层和Krizhevsky et al.[11]相似，都采用ReLu和max pooling，但是有以下不同：（1）没有使用对照规则化；（2）池化区域是非重叠的；（3）由于较小的Stride(2而不是4），1和2层有较大的feature map，大Stride对速度有益，但是会损害精度。

3.2 Multi-scale classification

在[11]中，多角度投票能够提高性能，10个角度（四个角及中心，和水平翻转）。这种方法不仅会忽略图像的某些区域，而且如果视角重叠，会造成计算冗余。另外，只应用在单个scale上，这个尺度可能不能使ConvNet产生最优的置信度。然而，作者在整个图像的每个位置和多个尺度上稠密运行网络。尽管滑动窗口的方法对某些类型的模型在计算上是不允许的，但是，这种方法明显产生了更多的投票角度，在保持计算效率的同时增加了鲁棒性。在每一个尺度下，一个任意大小的图像运行ConvNet的结果是一个C维的空间Map.
网络整体采样率是2*2*3*3=36（其中第一个2，是由conv1的stride 2引起的，其他的是pooling层的作用）。因此，当稠密应用网络的时候，该结构能够沿着每一个轴为输入维度上36个像素产生一个分类向量。这种粗糙的输出分布相比较于10视角的机制性能有很大的下降，因为这种网络窗口不能很好的和图像中的对象对齐。网络窗口和对象对齐越好，网络响应的置信度就越高。为了解决这个问题，作者采用[6]提供的方法避免了最后一个降采样操作，产生的降采样率是x12,而不是x36。
分辨率增广细节(下图非常详细）：
这里写图片描述

a)给定image，给定scale，从unpooled layer 5 feature map 开始；
b)每个unpooled map进行3x3 max pooling（non-overlapping),repated 3x3 次对offset {0,1,2}
c)对不同的x,y offset 组合，重复3x3次产生了pooled map集合；
d)分类器（layer 6,7,8)的固定输入大小是5x5，产生C-dimensional output vector 对一个pooled maps。
e)不同的x,y offset组合被reshape成3D output map.

CH-Yuan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

可以参考博文：[http://blog.sciencenet.cn/blog-1583812-844178.html](http://blog.sciencenet.cn/blog-1583812-844178.html) （大概了解一下，没仔细看）文章发表在ICLR2014,yan Lecun实验室。提出了一个用卷积网络进行分类、定位和检测的联合框架。介绍了如何在一个ConvNe
复制链接

扫一扫

专栏目录