TensorFlow-similarity 学习笔记6

最新推荐文章于 2024-09-10 16:00:52 发布

SidXu28

最新推荐文章于 2024-09-10 16:00:52 发布

阅读量722

点赞数

文章标签： tensorflow 深度学习 keras

本文链接：https://blog.csdn.net/xxxx___sdu/article/details/122083736

版权

TensorFlow-similarity 学习笔记6

2021SC@SDUSC
接下来的两篇学习笔记将学习介绍10个最常见的CNN架构

内容（按出版年份排序）

- TensorFlow-similarity 学习笔记6
LeNet-5 (1998)
AlexNet(2012)
VGG-16
Inception-v1(2014)
Inception-v3(2015)

你是如何跟上不同的卷积神经网络 (CNN) 的？近年来，我们见证了无数CNN的诞生。这些网络已经变得如此之深，以至于很难将整个模型可视化。我们不再跟踪它们，而是将它们视为黑盒模型。
本文是 10 种常见 CNN 架构的可视化。这些插图提供了整个模型的更紧凑的视图，而不必为了查看 softmax 层而向下滚动几次。除了这些图像，还附上了一些关于它们如何随着时间“进化”的注释——从 5 到 50 个卷积层，从普通卷积层到模块，从 2-3 个塔到 32 个塔，从 7⨉7 到 5 ⨉5——但稍后会详细介绍。
“常见”是指那些预训练权重通常由深度学习库（例如 TensorFlow、Keras 和 PyTorch）共享以供用户使用的模型，以及通常在课堂上教授的模型。其中一些模型在 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 等比赛中取得了成功。
将讨论的 10 种架构及其论文发表的年份：

Keras 中 6 种架构的预训练权重。改编自 Keras 文档中的表格：
Keras 中 6 种架构的预训练权重。改编自 Keras 文档中的表格。

我们看到的大量 CNN 架构是许多因素的结果——改进的计算机硬件、ImageNet 竞争、解决特定任务、新想法等等。谷歌研究员 Christian Szegedy 曾提到：
“大部分进步不仅仅是更强大的硬件、更大的数据集和更大的模型的结果，而且主要是新思想、算法和改进网络架构的结果。” （塞格迪等人，2014 年）
现在我们继续研究这些模型并观察网络架构如何随着时间的推移而改进！

在这里插入图片描述

LeNet-5 (1998)

在这里插入图片描述
LeNet-5 是最简单的架构之一。它有 2 个卷积层和 3 个全连接层（因此“5”——神经网络的名称通常来自于它们所具有的卷积层和全连接层的数量）。我们现在所知道的平均池化层被称为子采样层，它具有可训练的权重（这不是当今设计 CNN 的当前做法）。这个架构有大约 60,000 个参数。
什么创新？
这种架构已经成为标准的“模板”：用激活函数和池化层堆叠卷积，并以一个或多个全连接层结束网络。
发布
Paper: Gradient-Based Learning Applied to Document Recognition
Authors: Yann LeCun, Léon Bottou, Yoshua Bengio, and Patrick Haffner
Published in: Proceedings of the IEEE (1998)

AlexNet(2012)

在这里插入图片描述
AlexNet 有 60M 的参数，有 8 层——5 个卷积层和 3 个全连接层。 AlexNet 只是在 LeNet-5 上再堆叠了几层。在发表时，作者指出他们的架构是“迄今为止在 ImageNet 子集上最大的卷积神经网络之一”。
什么创新？

他们是第一个将整流线性单元 (ReLU) 实现为激活函数的人。
dropout
发布
Paper: ImageNet Classification with Deep Convolutional Neural Networks
Authors: Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton. University of Toronto, Canada.
Published in: NeurIPS 2012

VGG-16

在这里插入图片描述
到现在为止， CNN 开始变得越来越深入。这是因为提高深度神经网络性能最直接的方法是增加它们的大小（Szegedy 等人）。 Visual Geometry Group (VGG) 的人发明了 VGG-16，它具有 13 个卷积层和 3 个全连接层，并继承了 AlexNet 的 ReLU 传统。该网络在 AlexNet 上堆叠了更多层，并使用了更小的过滤器（2×2 和 3×3）。它由138M的参数组成，占用大约500MB的存储空间。他们还设计了一个更深的变体，VGG-19。
什么创新？

正如他们在摘要中提到的，这篇论文的贡献是设计了更深的网络（大约是 AlexNet 的两倍）。这是通过堆叠均匀卷积来完成的。
发布
Paper: Very Deep Convolutional Networks for Large-Scale Image Recognition
Authors: Karen Simonyan, Andrew Zisserman. University of Oxford, UK.
arXiv preprint, 2014

Inception-v1(2014)

在这里插入图片描述
这种具有 5M 参数的 22 层架构称为 Inception-v1。在这里，正如论文中提到的那样，网络中的网络（见附录）方法被大量使用。这是通过“初始模块”完成的。 Inception 模块的架构设计是对稀疏结构的近似研究的产物。每个模块提出了 3 个想法：

具有不同过滤器的并行卷积塔，然后进行串联，在 1×1、3×3 和 5×5 处捕获不同的特征，从而对它们进行“聚类”。这个想法是由 Arora 等人提出的。在论文 Provable bounds for learning some deep representations 中，提出了一种逐层构造，其中应该分析最后一层的相关统计数据并将它们聚类成具有高相关性的单元组。
1×1 卷积用于降维以消除计算瓶颈。
由于来自 1×1 卷积的激活函数，它的加入也增加了非线性。这个想法基于 Network In Network 论文。请参阅此处的附录。
作者还引入了两个辅助分类器来鼓励分类器较低阶段的区分，增加传播回来的梯度信号，并提供额外的正则化。辅助网络（连接到辅助分类器的分支）在推理时被丢弃。
值得注意的是，“这种架构的主要标志是提高了网络内部计算资源的利用率。”
注意：
模块的名称（Stem 和 Inception）直到后来的版本（即 Inception-v4 和 Inception-ResNets）才用于此版本的 Inception。为了便于比较，在此处添加了它们。
什么创新？
使用模块/块构建网络。我们不是堆叠卷积层，而是堆叠模块或块，其中是卷积层。因此得名《盗梦空间》（参考了 2010 年由莱昂纳多·迪卡普里奥主演的科幻电影《盗梦空间》）。
发布
Paper: Going Deeper with Convolutions
Authors: Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich. Google, University of Michigan, University of North Carolina
Published in: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)

Inception-v3(2015)

在这里插入图片描述
Inception-v3 是 Inception-v1 的继承者，有 24M 参数。 Inception-v2 是 v3 的早期原型，因此它与 v3 非常相似但不常用。当作者提出 Inception-v2 时，他们对其进行了许多实验，并记录了一些成功的调整。 Inception-v3 是包含这些调整的网络（调整优化器、损失函数以及向辅助网络中的辅助层添加批量归一化）。
Inception-v2 和 Inception-v3 的动机是避免表示瓶颈（这意味着大幅减少下一层的输入维度）并通过使用因子分解方法进行更有效的计算。
什么创新？
最早使用批量归一化的设计者之一（上图中未反映）。
与之前的版本 Inception-v1 相比有什么改进？
将 n×n 卷积分解为非对称卷积：1×n 和 n×1 卷积
将 5×5 卷积分解为两个 3×3 卷积操作
将 7×7 替换为一系列 3×3 的卷积
发布
Paper: Rethinking the Inception Architecture for Computer Vision
Authors: Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, Zbigniew Wojna. Google, University College London
Published in: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)