简单了解一下卷积神经网络常见架构的特点,不做为理论学习,如果需要深入学习,还需要看文末的几篇博客或者自己结合论文细读。文中标题内均附有英文原文链接,如果下载不了可以用SCI-HUB试试。
LeNet(Gradient-based learning applied to document recognition)
- 这是最早用于数字识别的CNN,标志着CNN的真正面世
- 7层(1Input+3Cov+1FC+1Output)
AlexNet(ImageNet Classification with Deep ConvolutionalNeural Networks)
-
网络增大( 5Conv(3maxpool) + 3fc )
-
Data Augmentation:水平翻转、随机裁剪、平移变换、颜色、光照变换;
-
Dropout
-
ReLU
-
LRN(局部响应归一化 )归一化层的使用
-
带动量的随机梯度下降
-
百万级ImageNet图像数据,GPU实现
ZFnet(Visualizing and Understanding Convolutional Networks)
- 提出一种可视化工具来探究内部特征层的运行机制和分类器的执行方式
VGGNet(Very Deep Convolutional Networks for Large-Scale Image Recognition)
- 训练时间长,网络权重规模太大(VGG16 (553MB),VGG19(575MB))
- 规整的网络结构:对于同一输出特征图尺寸,这些网络层有相同的filters,特征图的尺寸减半,特征图的filters翻倍。
- 引入了3 * 3 filter和maxpooling / 2
- 网络输入224 * 224( input_size >=48 * 48)
Inception V1(Going Deeper with Convolutions)
- NIN(Network in Network)中引入了1 * 1 filter,用于降维
- 增加了网络的宽度和深度
- 同时使用了1 * 1,3 * 3,5 * 5的卷积,增加了网络对尺度的适应性
Inception V2(Accelerating Deep Network Training by Reducing Internal Covariate Shift)
- 加入了BN(Batch Normalization)层,增加了模型的鲁棒性,much higher learning rate and less careful about initialization, eliminating the need for Dropout
- 用2个连续的3 * 3 conv替代inception模块中的5 * 5,从而实现网络深度的增加,网络整体深度增加了9层
Inception V3(Rethinking the Inception Architecture for Computer Vision)
- 提出了卷积分解(Factorization),将7 * 7分解成两个一维的卷积(1 * 7, 7 * 1),3 * 3也是一样(1 * 3 , 3 * 1),加速计算,使得网络深度进一步增加
- 增加网络宽度,网络输入从224 * 224变为了299 * 299(input_size>=139 * 139)
Inception V4(Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning)
- 利用残差连接(Residual Connection),将Inception模块和ResidualConnection结合
ResNet(Deep Residual Learning for Image Recognition)
- Deeper (152 layers—8 deeper than VGG nets)
- shortcut同等映射
- ResNet 中的很多层级实际上对整体的贡献非常小,在训练中随机丢弃一些层级也不会有很大的影响
DenseNet(Densely Connected Convolutional Networks)
- 提升网络层级间信息流与梯度流的效率,并提高参数效率
- 每一层的输出都会作为后面所有层的输入
详细版参考: