- 多层感知机
- LeNet5
1.相比MLP,LeNet使用了相对更少的参数,获得了更好的结果。 2.设计了maxpool来提取特征
- AlexNet
特点:
1.相比LeNet,AlexNet设计了更深层的网络。
2.在每个卷机后面添加了Relu激活函数,解决了Sigmoid的梯度消失问题,使收敛更快。
3.添加了归一化LRN(Local Response Normalization,局部响应归一化)层,使准确率更高。
4.设计并使用了dropout层,减轻了模型的过拟合。
5.通过裁剪,旋转等方式增强了训练数据。
6.受于当时的算力限制,Alexnet创新地将图像分为上下两块分别训练,然后在全连接层合并在一起(AlexNet网络图1,可以看到有上下两部分)。
-
VGGNet
VGGNet主要特点:1.探索了更深层次的网络结构图,可以看成是AlexNet的加强版本。
2.在卷机设计上,使用了更小的卷机核,验证了小尺寸的卷机核在深度网络中,不仅减少了参数,也达到了更好的效果。
-
GoogleNet
1.引入Inception概念,在当时流行模型‘加深’情况下,设计了‘加宽’的思路
2.采用Network in Network中用Average pool来代替全连接层的思想。实际在最后一层还是添加了一个全连接层,是为了大家做finetune。
3.另外增加了两个辅助的softmax分支,作用有两点,一是为了避免梯度消失,用于向前传导梯度。反向传播时如果有一层求导为0,链式求导结果则为0。二是将中间某一层输出用作分类,起到模型融合作用。最后的loss=loss_2 + 0.3 * loss_1 + 0.3 * loss_0。实际测试时,这两个辅助softmax分支会被去掉。
- GoogLeNet V2,V3
V2特点:
1 学习VGGNet的特点,用两个3*3卷积代替5*5卷积,降低参数量,提高计算速度,从而提升性能。
(下图Figure5)
2 它们将滤波器大小nxn的卷积分解为1xn和nx1卷积的组合。
例如,3x3卷积相当于首先执行1x3卷积,然后在其输出上执行3x1卷积。
他们发现这种方法比单个3x3卷积便宜33%。
( 下图Figure6)
3 模块中的滤波器组被扩展(更宽而不是更深)以消除代表性瓶颈。
如果模块变得更深,则尺寸会过度减少,从而导致信息丢失。
V3包含了为V2规定的所有上述改进,另外还使用了以下内容:
1 RMSProp优化器。
2 学习Factorization into small convolutions的思想,将7x7分解成两个一维的卷积(1x7,7x1),3x3也 是一样(1x3,3x1),这样的好处,既可以加速计算(多余的计算能力可以用来加深网络),又可以将1 个conv拆成2个conv,使得网络深度进一步增加,增加了网络的非线性,还有值得注意的地方是网络输 入从224x224变为了299x299,更加精细设计了35x35/17x17/8x8的模块。
3 辅助分类器中的BatchNorm。
BN算法是一个正则化方法,可以提高大网络的收敛速度。
简单介绍一下BN算法。
就是对输入层信息分布标准化处理,使得规范化为N(0,1)的高斯分布,收敛速度大大提高。
4 标签平滑(添加到损失公式中的一种正规化组件,可防止网络对类过于自信。
防止过度拟合)。
- GoogLeNet V4 ,Inception-ResNet v1和v2
1 修改了stem,这里的stem是指在引入Inception块之前执行的初始操作集。
2 V4引入了专门的“Reduction Blocks”,用于改变网格的宽度和高度。
早期版本没有显式Reduction Blocks,但实现了类似功能。
3 V4版本的3种Inception与之前版本的3种Inception非常相似,但也做了细节的修改。
- ResNet
跳层连接 - DenseNet
稠密连接 - Non-Local Networks
自注意力机制
1 对于视频分类,non-local会好于相应的一般网络,毕竟没有大的感受野未必能很鲁棒的捕捉一个 动作到底是跳高还是跳水。 2
依据作者们的结论,在网络浅层效果会更好,毕竟随着网络深度增加,传统网络感受野也会增加 了,Non-local的效果也就不再明显。
- 10.Deformable Convolutional Networks
首次在卷积神经网络(convolutional neutral networks,CNN)中引入了学习空间
几何形变的能力,得到可变形卷积网络(deformable convolutional networks),从
而更好地解决了具有空间形变的图像识别任务。研究员们通过大量的实验结果验证
了该方法在复杂的计算机视觉任务(如目标检测和语义分割)上的有效性,首次 表明在深度卷积神经网络(deep
CNN)中学习空间上密集的几何形变是可行的。
- Dilated Convolutional Networks
Dilated Convolution 被中文翻译为“空洞卷积”或“膨胀卷积”,我更倾向于称之为“膨胀卷积”。 该模型最早由Fisher
Yu在2016年ICLR上发表的论文《Multi-Scale Context Aggregation by Dilation
Convolutions》中提出。该模型最早应用于图像分割,因为传统CNN模型需要通
过pooling层来缩小图像尺寸,并扩大下一层的感受野,即进行下采样(down sampling);
这一过程肯定会有信息丢失。因为图像分割是pixel-wise的,且在图像预测时还需要进行上 采样(up
sampling)操作,丢失的信息在上采样过程中也很难再找回。
在这里插入图片描述
(a)图对应3x3的1-dilated conv,和普通的卷积操作一样,(b)图对应3x3的2-dilated conv,实际的卷积kernel size还是3x3,但是空洞为1,也就是对于一个7x7的图像patch,只有9个红色的点和3x3的kernel发生卷积操作,其余的点略过。也可以理解为kernel的size为7x7,但是只有图中的9个点的权重不为0,其余都为0。可以看到虽然kernel size只有3x3,但是这个卷积的感受野已经增大到了7x7(如果考虑到这个2-dilated conv的前一层是一个1-dilated conv的话,那么每个红点就是1-dilated的卷积输出,所以感受野为3x3,所以1-dilated和2-dilated合起来就能达到7x7的conv),©图是4-dilated conv操作,同理跟在两个1-dilated和2-dilated conv的后面,能达到15x15的感受野。对比传统的conv操作,3层3x3的卷积加起来,stride为1的话,只能达到(kernel-1)*layer+1=7的感受野,也就是和层数layer成线性关系,而dilated conv的感受野是指数级的增长。
- SENET
作者大概总结了前人对CNN模型的改进:卷积核作为卷积神经网络的核心,通常被看做是在局部感受野上,将空间上(spatial)的信息和特征维度上(channel-wise)的信息进行聚合的信息聚合体。卷积神经网络由一系列卷积层、非线性层和下采样层构成,这样它们能够从全局感受野上去捕获图像的特征来进行图像的描述。
参考文献的链接
https://mp.weixin.qq.com/s?__biz=MzIxOTczOTM4NA==&mid=2247488028&idx=1&sn=ea2fa577857ec60b717d8575c296b4a2&chksm=97d7f78ba0a07e9d09a83677f2ff1388063aee74486d11c7296346c9d97c1c56f63cc2a73c99&scene=0&xtrack=1&key=64b5b2c11d4b7b9a8e2c9ce24753ca9347227e764f6808d112b915e9ceb4fb7c5e54cacf31d06d3e2d6c25f6c0218babd7ffb2dd2cb5125964826d7e49041a3a7d007f196be3fcc2ca771a4af4bc0c66&ascene=14&uin=MjE2MjUxNzI0NA%3D%3D&devicetype=Windows+10&version=62060739&lang=zh_CN&pass_ticket=HW6vnGvlZhy7hB1sBqozHaGkmxDg2kTkMzXxuXaugL5naLTx97sYBzrlSQcajHre