04 InceptionV1学习笔记

最新推荐文章于 2023-01-04 11:18:27 发布

xiaotian127

最新推荐文章于 2023-01-04 11:18:27 发布

阅读量298

点赞数

分类专栏： cv论文

本文链接：https://blog.csdn.net/xiaotian127/article/details/103326771

版权

cv论文专栏收录该内容

11 篇文章 0 订阅

订阅专栏

论文地址：http://arxiv.org/pdf/1409.4842v1.pdf

参考文章：

（还不错，这两篇文章翻译的还是很全面的，知识一些细节上的专业词汇有些地方需要看原文）

1、inception_v1最大的创新点就是引入了Inception模块，使用了inception模块的优点：①加深、加宽了网络结构，学习了多种卷积核；②提升了计算机资源利用率。（而且参数要比VGG减少12倍）

2、基于keras的inception-v3对猫狗数据进行的分类测试（第一次发现SGD比Adam优化器好用），代码以及手撸的inception-v1的model文件

在第二章中主要是大致介绍了一下与本文有关的相关前人工作（LeNet-5、固定大小的Gabor滤波器以及借鉴了R-CNN中将整个检测分为两个子问题的思路），而且作者也表示，本文的网络架构中大量使用了 $1 \times 1$ 的卷积，主要有两个目的：①用来作为降维模块来移除卷积瓶颈，否则计算量指数倍的增加会限制网络的大小（如果不降维，inception模块里的池化层使得channels只能增加不能减少，几个inception下去，计算量就会爆炸）；②增加了网络深度和宽度的同时，性能并没有明显的增加。

在第三章中作者指出提高网络性能的最直接的方式（增加网络的深度和宽度）会有更多的参数，而且网络更容易过拟合（尤其是在训练样本有限的情况下，更加容易出现过拟合）；此外计算资源的使用也会增加。针对这一情况作者指出用稀疏性来进行缓解，但是我没整明白稀疏性怎么就和作者接下来提出的inception扯上关系了。【所存在的问题】

在第四章中，作者详细的介绍了网络架构的细节，以及两种inception结构（但是第一种被淘汰，因为第一种结构会导致channels不断递增，从而导致计算量爆炸，所以常见的inception网络都是用的第二种inception模块），具体如图1的a、b所示。第二种结构在进行 $3 \times 3$ 、 $5 \times 5$ 之前，先用 $1 \times 1$ 的进行降维；在 $3 \times 3$ 的max pooling后加上 $1 \times 1$ 的卷积，从而实现改变输出的通道数。此外，作者也强调了，处于技术原因（内存），只在更高层开始使用Inception模块，而更低层仍然保持传统的卷积形式。（具体在作者提交的22层的网络中表现是，前三层中没有使用inception，具体的网络结构可以看图2）

第五章中，讲的是googlenet的一些细节。第一，所有的卷积层（包括 $1 \times 1$ ）后都是用了relu激活函数；第二，在inception4a和4

b上添加了辅助分类器，具体辅助分类器有什么用怎么使用我没整明白【所存在的问题】。具体的网络结构可以看表1和图2（由于太大，所以放在了最下面）。

第六章中作者简单的阐述了一下训练方法。本文中使用的随机梯度下降法进行优化，动量参数momentum为0.9，固定的学习率计划（每8个epoch，lr下降4%）。

第七章中，作者介绍了用该网络在ILSVRC2014分类挑战赛中的设置和结果。第一，作者训练了个版本的GoogleNet，并且它们进行了整体预测，且它们具有相同的参数初始化和lr，区别仅在于采样方法和随机输入图像的顺序上【原文中在训练集做了哪些预处理讲得很模糊，但是测试集做了哪些处理讲得详细】。第二，在测试集上做的一些预处理工作，将图像各向同性缩放为256、288、320、352四种，再取左中右三个方块，对于每个方块取其四个角及中心 $224 \times 224$ 及它们的镜像，因此每张图片有 $4 \times 3 \times 6 \times 2 = 144$ 个crop图，最后再基于softmax求平均，从而得到最终结果。其他的主要是介绍了一下这个网络在比赛中取得的优异成果。