第一遍
-
标题:ImageNet Classification with Deep Convolutional Neural Networks
-
摘要:
- 问题(数据集):ImageNet,1.2百万图片,1000类
- 方法:大的深度卷积模型,6千万参数,65万神经元
- 模型:5个卷积层、最大池化层、3层全连接和softmax层、dropout层
- 结果:top-1和top-5错误率为 37.5 % 37.5 \% 37.5%和 17.0 % 17.0 \% 17.0%
-
结论/讨论:
- 深层卷积神经网络,通过监督学习,可以完成很复杂的建模
- 网络的深度对最后的top-1精度影响很大
- 展望:
- 希望在视频序列中使用深度卷积神经网络,时间结构提供了非常有用的信息
-
关注图表
-
ReLU(Fig 1)
-
这是一个比tanh快约6倍的激活函数
-
网络结构图(Fig 2)
- 双GPU训练
- 前两层卷积层用到了(归一化和池化),最后一层卷积层也用到了池化
-
第一层卷积后的特征图(Fig 3)
-
结果对比
-
比较ILSVRC-2010上的结果
-
比较在ILSVRC-2012验证集和测试集上的错误率(表2)
-
-
结果量化
- 左图显示top-5预测结果,图片下方表示正确结果,下面柱状图表示预测结果
- 右图的第一列是五张训练集图片,剩余的六列是在测试集中的六张图片。它们通过卷积神经网络输出的特征向量在欧几里得空间中是最近的。
-
值不值得读?
- 深度卷积神经网络开山之作
- ReLU
- Dropout
-
第二遍
- 精读每个图
- ReLU非线性
- 饱和非线性和非饱和非线性区别:
- 饱和相较于非饱和会将输入值压缩
- ReLU: m a x ( 0 , x ) max(0,x) max(0,x)
- sigmoid: 1 1 + e − x \frac{1}{1+e^{-x}} 1+e−x1
- tanh: e x − e − x e x + e − x \frac{e^x-e^{-x}}{e^x+e^{-x}} ex+e−xex−e−x
- 饱和非线性和非饱和非线性区别:
- 网络结构图
- 卷积特征图
- 结果量化图
- ReLU非线性
- 精读每个表
- 结果比较表
- 圈出相关文献
- Rectified linear units improve restricted boltzmann machines
- High-performance neural networks for visual object classification
第三遍
-
什么问题?
- 目标识别需要大的数据集
- 需要好的模型cover大的数据集
- CNN更少的参数、更快的训练速度、稳定的统计性、像素依赖
-
什么方法?
-
多层卷积神经网络
-
重要公式:
-
R e L U = m a x ( 0 , x ) ReLU = max(0,x) ReLU=max(0,x)
-
Local Response Normalization :
b x , y i = a x , y i / ( k + α ∑ j = m a x ( 0 , i − n / 2 ) m i n ( N − 1 , i + n / 2 ) ( a x , y j ) 2 ) β b_{x,y}^i = a_{x,y}^i / (k + \alpha\sum_{j=max(0,i-n/2)}^{min(N-1,i+n/2)}(a_{x,y}^j)^2)^\beta bx,yi=ax,yi/(k+αj=max(0,i−n/2)∑min(N−1,i+n/2)(ax,yj)2)β
-
-
-
怎么实验?
-
数据增强1
- resize 256x256
- 水平翻转
- 分别在中心以及四周取5个样
-
数据增强2
- 改变RGB通道的强度
-
dropout
- 前两个全连接层使用dropout
-
优化器
- 优化公式:
v i + 1 : = 0.9 v i − 0.0005 ϵ w i − ϵ ⟨ ∂ L ∂ w ∣ w i ⟩ D i w i + 1 : = w i + v i + 1 v_{i+1} := 0.9v_i - 0.0005\epsilon w_i - \epsilon {\langle \frac{\partial L}{\partial w} |w_i \rangle }_{D_i} \\ w_{i+1} := w_i + v_{i+1} vi+1:=0.9vi−0.0005ϵwi−ϵ⟨∂w∂L∣wi⟩Diwi+1:=wi+vi+1
- 优化公式:
-
-
为什么?
- 卷积核的使用
- 网络层数增加
- 数据增强方法
有问题欢迎留言讨论。