深度学习模型发展史

最新推荐文章于 2024-06-09 17:16:21 发布

沙雅云

最新推荐文章于 2024-06-09 17:16:21 发布

阅读量3.4k

点赞数 1

分类专栏：目标检测

本文链接：https://blog.csdn.net/yychentracy/article/details/99084015

版权

目标检测专栏收录该内容

48 篇文章 5 订阅

订阅专栏

多层感知机
LeNet5

1.相比MLP，LeNet使用了相对更少的参数，获得了更好的结果。
2.设计了maxpool来提取特征

AlexNet

特点：

1.相比LeNet，AlexNet设计了更深层的网络。

2.在每个卷机后面添加了Relu激活函数，解决了Sigmoid的梯度消失问题，使收敛更快。

3.添加了归一化LRN（Local Response Normalization，局部响应归一化）层，使准确率更高。

4.设计并使用了dropout层，减轻了模型的过拟合。

5.通过裁剪，旋转等方式增强了训练数据。

6.受于当时的算力限制，Alexnet创新地将图像分为上下两块分别训练，然后在全连接层合并在一起（AlexNet网络图1，可以看到有上下两部分）。

VGGNet
VGGNet主要特点：

1.探索了更深层次的网络结构图，可以看成是AlexNet的加强版本。

2.在卷机设计上，使用了更小的卷机核，验证了小尺寸的卷机核在深度网络中，不仅减少了参数，也达到了更好的效果。
GoogleNet

1.引入Inception概念，在当时流行模型‘加深’情况下，设计了‘加宽’的思路

2.采用Network in Network中用Average pool来代替全连接层的思想。实际在最后一层还是添加了一个全连接层，是为了大家做finetune。

3.另外增加了两个辅助的softmax分支，作用有两点，一是为了避免梯度消失，用于向前传导梯度。反向传播时如果有一层求导为0，链式求导结果则为0。二是将中间某一层输出用作分类，起到模型融合作用。最后的loss=loss_2 + 0.3 * loss_1 + 0.3 * loss_0。实际测试时，这两个辅助softmax分支会被去掉。

GoogLeNet V2，V3

V2特点：

1 学习VGGNet的特点，用两个3*3卷积代替5*5卷积，降低参数量，提高计算速度，从而提升性能。
（下图Figure5）
2 它们将滤波器大小nxn的卷积分解为1xn和nx1卷积的组合。
   例如，3x3卷积相当于首先执行1x3卷积，然后在其输出上执行3x1卷积。
   他们发现这种方法比单个3x3卷积便宜33％。
 （ 下图Figure6）
3 模块中的滤波器组被扩展（更宽而不是更深）以消除代表性瓶颈。
  如果模块变得更深，则尺寸会过度减少，从而导致信息丢失。

V3包含了为V2规定的所有上述改进，另外还使用了以下内容：

	1 RMSProp优化器。
	2 学习Factorization into small convolutions的思想，将7x7分解成两个一维的卷积（1x7,7x1），3x3也			是一样（1x3,3x1），这样的好处，既可以加速计算（多余的计算能力可以用来加深网络），又可以将1	个conv拆成2个conv，使得网络深度进一步增加，增加了网络的非线性，还有值得注意的地方是网络输	入从224x224变为了299x299，更加精细设计了35x35/17x17/8x8的模块。
	3 辅助分类器中的BatchNorm。
	BN算法是一个正则化方法，可以提高大网络的收敛速度。
	简单介绍一下BN算法。
	就是对输入层信息分布标准化处理，使得规范化为N(0,1)的高斯分布，收敛速度大大提高。
	4 标签平滑（添加到损失公式中的一种正规化组件，可防止网络对类过于自信。
	防止过度拟合）。

GoogLeNet V4 ，Inception-ResNet v1和v2

	1 修改了stem，这里的stem是指在引入Inception块之前执行的初始操作集。
	2 V4引入了专门的“Reduction Blocks”，用于改变网格的宽度和高度。
	  早期版本没有显式Reduction Blocks，但实现了类似功能。
	3 V4版本的3种Inception与之前版本的3种Inception非常相似，但也做了细节的修改。

ResNet
跳层连接
DenseNet
稠密连接
Non-Local Networks
自注意力机制

1 对于视频分类，non-local会好于相应的一般网络，毕竟没有大的感受野未必能很鲁棒的捕捉一个动作到底是跳高还是跳水。 2
依据作者们的结论，在网络浅层效果会更好，毕竟随着网络深度增加，传统网络感受野也会增加了，Non-local的效果也就不再明显。

10.Deformable Convolutional Networks

首次在卷积神经网络（convolutional neutral networks，CNN）中引入了学习空间
几何形变的能力，得到可变形卷积网络（deformable convolutional networks），从
而更好地解决了具有空间形变的图像识别任务。研究员们通过大量的实验结果验证
了该方法在复杂的计算机视觉任务（如目标检测和语义分割）上的有效性，首次表明在深度卷积神经网络（deep
CNN）中学习空间上密集的几何形变是可行的。

Dilated Convolutional Networks

Dilated Convolution 被中文翻译为“空洞卷积”或“膨胀卷积”，我更倾向于称之为“膨胀卷积”。该模型最早由Fisher
Yu在2016年ICLR上发表的论文《Multi-Scale Context Aggregation by Dilation
Convolutions》中提出。该模型最早应用于图像分割，因为传统CNN模型需要通
过pooling层来缩小图像尺寸，并扩大下一层的感受野，即进行下采样（down sampling）；
这一过程肯定会有信息丢失。因为图像分割是pixel-wise的，且在图像预测时还需要进行上采样（up
sampling）操作，丢失的信息在上采样过程中也很难再找回。
在这里插入图片描述

在这里插入图片描述
(a)图对应3x3的1-dilated conv，和普通的卷积操作一样，(b)图对应3x3的2-dilated conv，实际的卷积kernel size还是3x3，但是空洞为1，也就是对于一个7x7的图像patch，只有9个红色的点和3x3的kernel发生卷积操作，其余的点略过。也可以理解为kernel的size为7x7，但是只有图中的9个点的权重不为0，其余都为0。可以看到虽然kernel size只有3x3，但是这个卷积的感受野已经增大到了7x7（如果考虑到这个2-dilated conv的前一层是一个1-dilated conv的话，那么每个红点就是1-dilated的卷积输出，所以感受野为3x3，所以1-dilated和2-dilated合起来就能达到7x7的conv）,©图是4-dilated conv操作，同理跟在两个1-dilated和2-dilated conv的后面，能达到15x15的感受野。对比传统的conv操作，3层3x3的卷积加起来，stride为1的话，只能达到(kernel-1)*layer+1=7的感受野，也就是和层数layer成线性关系，而dilated conv的感受野是指数级的增长。

SENET

作者大概总结了前人对CNN模型的改进：卷积核作为卷积神经网络的核心，通常被看做是在局部感受野上，将空间上（spatial）的信息和特征维度上（channel-wise）的信息进行聚合的信息聚合体。卷积神经网络由一系列卷积层、非线性层和下采样层构成，这样它们能够从全局感受野上去捕获图像的特征来进行图像的描述。
参考文献的链接
https://mp.weixin.qq.com/s?__biz=MzIxOTczOTM4NA==&mid=2247488028&idx=1&sn=ea2fa577857ec60b717d8575c296b4a2&chksm=97d7f78ba0a07e9d09a83677f2ff1388063aee74486d11c7296346c9d97c1c56f63cc2a73c99&scene=0&xtrack=1&key=64b5b2c11d4b7b9a8e2c9ce24753ca9347227e764f6808d112b915e9ceb4fb7c5e54cacf31d06d3e2d6c25f6c0218babd7ffb2dd2cb5125964826d7e49041a3a7d007f196be3fcc2ca771a4af4bc0c66&ascene=14&uin=MjE2MjUxNzI0NA%3D%3D&devicetype=Windows+10&version=62060739&lang=zh_CN&pass_ticket=HW6vnGvlZhy7hB1sBqozHaGkmxDg2kTkMzXxuXaugL5naLTx97sYBzrlSQcajHre

沙雅云

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
深度学习模型发展史

多层感知机LeNet51.相比MLP，LeNet使用了相对更少的参数，获得了更好的结果。2.设计了maxpool来提取特征AlexNet特点：1.相比LeNet，AlexNet设计了更深层的网络。2.在每个卷机后面添加了Relu激活函数，解决了Sigmoid的梯度消失问题，使收敛更快。3.添加了归一化LRN（Local Response Normalizati...
复制链接

扫一扫

专栏目录