0 【笔记】图像分类ImageNet–ImageNet Classification with Deep Convolutional Neural Networks

最新推荐文章于 2024-05-26 21:49:12 发布

淮gg

最新推荐文章于 2024-05-26 21:49:12 发布

阅读量240

点赞数 1

分类专栏： AI论文小笔记文章标签：卷积深度学习人工智能神经网络

本文链接：https://blog.csdn.net/weixin_44994302/article/details/117357566

版权

AI论文小笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

原文：https://www.nvidia.cn/content/tesla/pdf/machine-learning/imagenet-classification-with-deep-convolutional-nn.pdf
CSDN较为详细的讲解：https://blog.csdn.net/zziahgf/article/details/79619059
课程学习来自------同济子豪兄------知识星球-----AI论文精读

前言

首次将卷积神经网络CNN和深度学习DL用于大规模图像分类且性能优异

当前图像识别的方法都是基于机器学习的
虽然机器学习的方法在小数据集上能刷到不错的分数，但现实生活中的数据很复杂（如一张彩色图片），所以用传统机器学习的方法不能满足现实的需要，因此需要一个更具备学习能力的模型，而CNN再当时被认为是有这个学习能力的–因为CNN的学习能力的强弱可以通过改变depth深度（网络层数）和breadth（channels）的个数来调整。
研究发现卷积神经网络（CNN） 具备很多优点，可用于大规模图像识别”CNNs have much fewer connections and parameters and so they are easier to train”，如局部连接、权值共享、下采样。

创新点

CNN卷积神经网络
ReLU激活函数 —加快训练速度
双GPU模并行 — 加快训练速度
LRN(Local Response Normalization)局部响应归一化
重叠最大池化
数据增强 data augmentation
Dropout正则化

网络结构

在这里插入图片描述 Figure 2: An illustration of the architecture of our CNN, explicitly showing the delineation of responsibilities between the two GPUs. One GPU runs the layer-parts at the top of the figure while the other runs the layer-partsat the bottom. The GPUs communicate only at certain layers. The network’s input is 150,528-dimensional, andthe number of neurons in the network’s remaining layers is given by 253,440–186,624–64,896–64,896–43,264–4096–4096–1000.

1.ReLU Nonlinearity: 使用ReLU这种non-saturating（非饱和） 的函数发现比饱和的激活函数更容易收敛 ，在该文中指出ReLU不需对输入normalize来避免信号陷入饱和。

在这里插入图片描述

2.采用双GPU并行运算： 硬件升级了，现在暂不需考虑。
3.局部响应归一化(LRN,Local Response Normalization): 本文在ReLU后进行LRN（在后面的文章也没怎么见过）
4.Overlapping Pooling（重叠池化）： 指的是池化步长小于池化窗口（如步长s=2,窗口z=3）。相对正常池化（non-overlapping pooling），可以提高预测精度，同时一定程度减缓过拟合。

减少过拟合

1.Data augmentation（数据扩增）： A.平移/水平翻转(translations and horizontal reflections) B.颜色变换 (altering the intensities of the RGB channels) C.调整光照强度和亮度(changes in the intensity and color of the illumination)
2.Dropout（随机失活）：

虽然说多模型集成可有效防止过拟合，但对于大型神经网络而言，并不经济（too expensive），因此采用Dropout。
- 做法：训练阶段，每一个batch随机掐死一半的神经元（将神经元输出设为0），即阻断该神经元的前向-反向传播。预测阶段，保留所有神经元，预测结果x0.5。

TIPS:

1、论文中说，对于他们的网络而言（即ImageNet）若remove一个卷积层，则性能会降低----得知卷积神经网络CNN的深度depth很重要。
2、由反向传播原理，显存种不仅存储模型参数，还需存储正向传播时每一层整个batch的中间结果，batch size越大，所需显存越大。
3、卷积核输出尺寸: OH：输出大小 H：输入图像大小 P：Padding S：Stride