【AlexNet解读】ImageNet Classification withDeep Convolutional Neural Networks

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xiequnyi/article/details/52232855

【AlexNet解读】ImageNet Classification withDeep Convolutional Neural Networks

 

Label  深度学习 模型解读 AlexNet

 

一.摘要

数据库:ImageNet,开放的深度学习人工标记数据库,根据比赛ImageNet Large-Scale Visual Recognition Challenge (ILSVRC),出现两个ImageNet的子集,现在较为常用的深度学习数据库ImageNet-ILSVRC-2010和ImageNet-ILSVRC-2012。

AlexNet卷积神经网络含约60,000,000个参数,650,000个神经节点(以下简称节点)。模型架构包括1个输入层,5个卷积层(包含卷积Conv,激活函数Relus,响应归一化层normalization,池化层max-pooling),3个全连接层(该层内的每一个节点都与上一层的所有节点相连)和1个逻辑分类层(后接惩罚函数层Loss和标记输出层Label)。

由于该模型的参数数量过大(大于训练数据),所有模型极易“过拟合”,本文采取丢弃”dorp out”的方法予以改善。

测试结果:

数据集

Top-1

Top-5

ImageNet-ILSVRC-2010

37.5%

17.0%

ImageNet-ILSVRC-2012

15.3%

26.2%

Top-1 = (正确标记 与 模型输出的最佳标记不同的样本数)/ 总样本数;

Top-5 = (正确标记 不在 模型输出的前5个最佳标记中的样本数)/ 总样本数;

   

二.引言

1. 通常在深度学习中,根据模型不同,数据集内图片的数量会直接影响拟合效果,过小的数据集很容易引起训练结果的“过拟合”。这个概念类似于解多元一次方程组,如果需求解的参数过多,即大于给定的方程数,则求解的过程往往不稳定。即模型泛化能力差。

2. 为了使用大数据集,该模型以卷积神经网络CNNs为基础。随之而来的是对运算速率的要求。因此实现必须依赖于GPU及其2D卷积函数。

3. 本文训练了一个CNN模型用于上述两个数据集的分类。其模型架构详述在第四部分,对“过拟合”的解释和解决方案详述在第五部分,且受限于GPU的内存,本文发明一种双GPU并行处理机制。

   

三.数据

ImageNet,开放的深度学习人工标记数据库,含15,000,000张图,22,000个类;根据比赛ImageNet Large-Scale Visual Recognition Challenge (ILSVRC),出现两个ImageNet的子集,现在较为常用的深度学习数据库ImageNet-ILSVRC-2010(含1,200,000训练集,50,000检验集,150,000测试集,含1000类)和ImageNet-ILSVRC-2012(测试集无标记)。

素材图的预处理:原始图-》锁定原始图的纵横比,下采样使得原图短边等比例调整为256得图1-》截取图1的中间部分,得256*256的图2-》图2减去其均值得备用图

 

四.架构

模型解构引入的新特征:

1. 引入非饱和非线性节点相应函数,Rule,收敛速度快;

2. 模型在两个GPU(GTX 580 3GB)上交叉并行处理,可容纳模型参数多,运行速度快;

3. 局部相应归一化,这一点还没有完全弄懂……

4. 最大池化层的重叠,即相邻窗距s小于窗额尺寸z;

 

整体模型架构:


以上为模型的大致结构,具体分析如下图:

 

 

五.去“过拟合”

本文提出的“过拟合”解决方案(主要就是扩大训练集或者剔除节点,减少模型参数):

1. 原始图为256*256,从中随机挑选224*224的局部图作为训练模型的输入,共计(256-224)*(256-224)*2=2048个子图,也就是说,一幅原图经过变换后可生成2048幅子图,扩展了训练集;这里的*2表示水平映射,即图像反转;

备注:这里的224与模型分析中的227不符,仍不知道原因;

2. 利用PCA降维,在原图上添加随机的特征量(不慎求解);

3. dropout,以50%的概率丢弃掉模型中的部分节点,以较少模型参数;

 

六.参数设置细节及结果

……略述,详见了论文……

 

资料链接

数据库地址:http://www.thinkface.cn/thread-4199-1-1.html(2012)

模型源码地址:http://caffe.berkeleyvision.org/gathered/examples/imagenet.html

训练好的模型地址:http://dl.caffe.berkeleyvision.org/bvlc_reference_caffenet.caffemodel

推送一个大神的相关博文:http://blog.csdn.net/abcjennifer/article/details/42493493/

 

 

阅读更多
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页