GoogleNet Inception

最新推荐文章于 2024-01-05 23:23:22 发布

此心

最新推荐文章于 2024-01-05 23:23:22 发布

阅读量599

点赞数

分类专栏：机器学习文章标签：网络深度学习 googlenet

本文链接：https://blog.csdn.net/zhizhongchai/article/details/78016875

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

浅谈对googlenet的理解

最近有看关于GoogleNet的一系列文章，对Inception结构有了一定的了解，简单的来说，GoogleNet的网络结构与普通网络结构的最大不同是从两个方面增加了网络的“深度”，一方面是纵向深度，也就是人们通常所说的网络的层数，另一方面是横向深度，这个深度是Inception结构所特有的，思想是借鉴之前的一篇名为《Network In Network》的论文。

GoogleNet V1

GoogleNet v1受到之前《Network In Network》论文的启发，提出了一种新的网络结构，他们称之为Inception Model。众所周知，传统的网络包括AlexNet、VGGNet等，它们的网络结构大都是一个卷积层后面紧接一个池化层，最后再接一个激活层，这样的小model再不断循环，便构成了一个卷积神经网络，其中每个卷积层中只包含一种大小的卷积核。GooleNet将卷积层中的不同卷积核大小的种类由原先的一个替换成了四个，形成了一个横向的扩张，这四个卷积核分别是一个1x1的卷积，一个3x3的卷积，一个5x5的卷积再加上一个3x3的最大池化层，最后再将这三种不同大小的卷积核所提取到的特征融合在一起，作为下一层的输入。
此外，文中对于这种Inception结构给出了两种版本，一种是Inception module naive version，而另一种就是Inception model with dimension reductions.
这两种结构如下图所示：
这里写图片描述

第一种结构是原生态的Inception Module，普通的网络结构层与层之间只有一个分支，相应的只能提取一种特征，而Inception Module中在一层当中使用了四个特征提取器，最后使用一个特征融合器将这四个特征提取器提取的feature map融合起来，作为下一层的输入。
第一种结构使用过程中会导致一个问题，就是即使是少量的5x5的卷积在高层的卷积层中也会导致计算量变大，这种情况在混合结构中包含池化层的时候会变得更加严重。
即使第一种结构可能包含了最优稀疏结构，但是它的效率并不高，会在较少的迭代次数后导致计算量的猛增。
而为了避免这种情况的出现，作者在除1x1卷积的另外三个分支上分别加了一个1x1的卷积。
这里的1x1卷积主要有以下两大作用：
- 降维
- 减少参数量
这里写图片描述
Table 1是Googlenet v1的网络结构图，其中#3x3 reduce和#5x5 reduce是指3x3卷积和5x5卷积之间的1x1卷积的个数。拿inception 3a举例，输入大小是28*28*192，输出大小为28*28*256。首先降维是显而易见的，原来的192维通过三个1*1的卷积后分别降为96、16和32维。其次是参数量的比较，不加1*1卷积层需要的参数量为192×64+192×128×3×3+（192×32×5×5）+192×32,而加了1*1的卷积后需要的参数量为192×64+（192×96+96×128×3×3）+（192×16+16×32×5×5）+192×32。
ILSVRC 2014 Classification Challenge Setup and Results
ILSVRC 2014 分类比赛是对ImageNet数据集的1000个类别的分类比赛，通常会报告两个数字：前1个准确率，将实际情况与第一个预测类别进行比较，前5个错误率，将实际情况与前5个预测类别进行比较：图像被视为正确分类,不管它们的排名如何, 比赛使用排名前5的错误率。
论文中使用的一些比赛技巧
1.作者分别训练了7个GoogleLeNet模型，然后将这7个模型的预测结果取均值作为最后的预测结果。这7个模型有着相同的初始化和学习率，它们只在采样方法和输入图像的随机顺序上有所不同。
2.在测试阶段，作者采取了一种比较极端的图片处理方式：首先将图片分别缩放至256、288、320和352四种大小，对左边、中间和右边进行正方形截取，使图像变成正方形，对于每个正方形图像，作者再从它的四个角落和中间截取224*224大小的crop共5张，再加上将它直接resize成224*224大小的一张，一共6张，对这6张再分别取镜像。所以每张原始图像可以变为4*3*6*2=144张图像。作者发现用这种方法得到的最后的结果相对于原始算法的结果不但精度没有增加，反而有轻微下降。作者猜测是由于图像数据的数量已经达到了一定程度，盲目的增加反而没有好处。
3.softmax概率是对多个crop和所有单个分类器进行平均以获得最终预测结果。作者分析了其他验证数据的方法，例如取多个crop的最大值和分类器上的平均值，但是结果却不如简单的取平均值。
<未完待续>

此心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
GoogleNet Inception

浅谈对googlenet的理解最近有看关于GoogleNet的一系列文章，对Inception结构有了一定的了解，简单的来说，GoogleNet的网络结构与普通网络结构的最大不同是从两个方面增加了网络的“深度”，一方面是纵向深度，也就是人们通常所说的网络的层数，另一方面是横向深度，这个深度是Inception结构所特有的，思想是借鉴之前的一篇名为《Network In Network》的论文。...
复制链接

扫一扫