GoogLeNet来源论文《Going Deeper with Convolutions》读后总结)
前言
这是一些对于论文《Going Deeper with Convolutions》的简单的读后总结,首先先奉上该文章的下载超链接:GoogLeNet。
这篇文章是由 Google Inc.、 University of North Carolina, Chapel Hill、University of Michigan, Ann Arbor 、 Magic Leap Inc. 这四个机构的人员合作完成的,作者分别是Christian Szegedy , Wei Liu , Yangqing Jia , Pierre Sermanet , Scott Reed , Dragomir Anguelov , Dumitru Erhan , Vincent Vanhoucke , Andrew Rabinovich 。发表于CVPR2015。其是著名的GoogLeNet的来源。GoogLeNet在ILSVRC-2014挑战的分类任务中获得了第一名的佳绩。
文章主要内容与贡献
该文章的贡献为:
- 设计了 Inception 模块;
- 使用了更小的卷积滤波器;
- 使用了更深的网络结构且设计了具有独创性的网络结构;
- 使用了比AlexNet更为激进的图片修剪技术(即数据增强)。
设计了 Inception 模块
Inception这个名字来源于Lin et al
M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013.
结合著名的“we need to go deeper”网络
Know your meme: We need to go deeper.
http://knowyourmeme.com/memes/we-need-to-go-deeper .
Accessed: 2014-09-15.
。Inception模块可以更直接地意识到增加的网络深度,Inception模块的结构如下所示:
图(a)是简单版的Inception模块结构,可以看见里面包含了
1
×
1
1\times1
1×1、
3
×
3
3\times3
3×3、
5
×
5
5\times5
5×5的卷积和
3
×
3
3\times3
3×3的最大池化,从图上的结构看这三个卷积滤波器和
3
×
3
3\times3
3×3的最大池化是平行的,但这样做会导致输出数量逐级增加的问题。因此出现了改进版的Inception模块结构,即图(b)所示的降维版本的Inception模块结构,其相比于简单版的Inception模块结构在
3
×
3
3\times3
3×3、
5
×
5
5\times5
5×5的卷积和
3
×
3
3\times3
3×3的最大池化处使用了
1
×
1
1\times1
1×1的卷积滤波器降低了模块的维度,具体是将
1
×
1
1\times1
1×1的卷积滤波器加在了
3
×
3
3\times3
3×3、
5
×
5
5\times5
5×5的卷积滤波器的前方,将
1
×
1
1\times1
1×1的卷积滤波器加在了
3
×
3
3\times3
3×3的最大池化的后方。这样做不仅可以降维,还能通过ReLU激活函数嵌入更多非线性信息。
加入了Inception模块后能加速网络以及避免梯度爆炸。
使用了更小的卷积滤波器
先放上一张GoogLeNet的参数图:
上图非常详细地说明了使用了何种事物来构建网络,连每个部分的参数量以及占用内存空间都一一写出,实在是详细至极,使人能够一眼就看出该网络的不同之处。
可以看到Convolution和Inception都是占用内存最大的部分。传统意义上的卷积层只出现了2次,需要注意的是第一个卷积层是
7
×
7
7\times7
7×7且步长为2的卷积滤波器,这是一个比较大的卷积滤波器,步长为2使得其精度有所下降。传统意义上的池化层只出现了5次,需要注意的是最后一个池化层是
7
×
7
7\times7
7×7的平均池化而非最大池化。网络的主体由降维的Inception模块构成。这些小的卷积滤波器主要是出现在Inception模块中。
有趣的一点是这里的每一层的通道数都不一定是2的次方,比如说192,480,528和832,但是都满足网络越深通道越多的思想,原因的话应该是做了大量的实验跑出来的最有结果。
使用了更深的网络结构且设计了具有独创性的网络结构
首先先直接放上网络结构图,由于该网络有22层(算上池化层的话有27层),因此这个图会非常的长。
该网络的结构在上节已基本说明清楚了,但在这需要特别解释的一个地方就是
该网络在第4个Inception模块和第7个Inception模块处都并行输出了一个Softmax分类结果,然后在训练时这两个Softmax处也进行反向传播,来应对梯度消失的问题。
该网络的dropout的丢失比率设置为70%。
使用了比AlexNet更为激进的图片修剪技术(即数据增强)
该文章将图像调整为256,288,320和352的尺寸的图像,取这些尺寸调整后的左中右三个部分的方格(如果是肖像画则取上中下三个部分的方格),对于每个放格取其左上、左下、右上、右下和中心的 224 × 224 224\times224 224×224大小的裁剪以及它们的镜像,总共每张图片有 4 × 3 × 6 × 2 = 144 4\times3\times6\times2=144 4×3×6×2=144个版本。相当于数据多了144倍。
最后献上数值实验的结果
ILSVRC14比赛结果图: