文献阅读 - Some Improvements on Deep Convolutional Neural Network Based Image Classification

Some Improvements on Deep Convolutional Neural Network Based Image Classification


A.G. Howard Some Improvements on Deep Convolutional Neural Network Based Image Classification (2013)


摘要

1 引言

验证误差平台(validation error plateaus)

2 训练数据变换(additional data transformations for training)

AlexNet分类(imagenet classification system)采用三种数据增强方式:

(1)随机裁剪(randomly located crop),从 256 × 256 256 \times 256 256×256图像中随机裁剪出 224 × 224 224 \times 224 224×224区域,获取平移不变性(capture some translation invariance);

(2)随机水平翻转(horizontal flip)图像,获取镜像不变性(capture the reflection invariance)

(3)随机光照(add randomly generated lighting),获取光照不变性和次要色彩不变性(capture invariance to the change in lighting and minor color variation)

2.1 随机裁剪(extending image crops into extra pixels)

AlexNet随机裁剪:首先将图像的最大维度缩放至 256 256 256像素,然后将图像另一边裁剪至 256 256 256像素,大约损失 30 30% 30的像素信息。

本文将图像沿短边按比例缩放至 256 × N 256 \times N 256×N N × 256 N \times 256 N×256)像素,然后随机裁剪出 224 × 224 224 \times 224 224×224区域作为训练图像。

2.2 色彩修改(additional color manipulations)

随机修改对比度(contrast)、亮度(brightness)和色彩(color):随机确定三种操作的次序、均匀抽取 [ 0.5 , 1.5 ] [0.5, 1.5] [0.5,1.5]间的随机数作为处理强度(choose a number between 0.5 and 1.5 for the amount of enhancement),然后再加入随机光照。

3 测试数据变换(additional data transformations for testing)

预测时,AlexNet对输入图像进行中心(1)、边角(4)裁剪并水平翻转(2),然后将 10 10 10张图像分别输入网络进行预测,并对结果取众数。本文将平移(5)、水平翻转(2)、缩放(3)、视角(3)组合,共有90种不同变换,采用贪心算法(greedy algorithm)选择 10 10 10种进行预测。

3.1 多尺度预测(predictions at multiple scales)

通常图像的有用信息包含在不同的尺度上(image contains useful predictive elements at different scales),本文在三个尺度上进行预测: 256 256 256 228 228 228 284 284 284,其中放大图像((scaling an image up)、缩小图像(scaling an image down)时采用双三次插值(bicubic interpolation);不使用抗锯齿滤波器(anti aliasing filter)。

3.2 多视角预测(predictions at multiple views)

给定输入图像尺寸 256 × N 256 \times N 256×N N × 256 N \times 256 N×256),本文分别截取左中右(上中下)区域,并将其裁剪、翻转、缩放。

3.2 减少预测数(reducing the number of predicitons)

贪心算法:从最佳预测(best prediction)开始,逐步新增预测,直至性能不再提升。

▇最佳预测是什么鬼?▇

4 高分辨率模型(higher resolution models)

分辨率增大时,可能需要重新训练模型,此时可使用已有模型作为初始权值。

4.1 模型细节(model details)

5 结果

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值