GoogLeNet来源论文《Going Deeper with Convolutions》读后总结

前言

这是一些对于论文《Going Deeper with Convolutions》的简单的读后总结,首先先奉上该文章的下载超链接:GoogLeNet

这篇文章是由 Google Inc.、 University of North Carolina, Chapel Hill、University of Michigan, Ann Arbor 、 Magic Leap Inc. 这四个机构的人员合作完成的,作者分别是Christian Szegedy , Wei Liu , Yangqing Jia , Pierre Sermanet , Scott Reed , Dragomir Anguelov , Dumitru Erhan , Vincent Vanhoucke , Andrew Rabinovich 。发表于CVPR2015。其是著名的GoogLeNet的来源。GoogLeNet在ILSVRC-2014挑战的分类任务中获得了第一名的佳绩。

文章主要内容与贡献

该文章的贡献为:

  1. 设计了 Inception 模块;
  2. 使用了更小的卷积滤波器;
  3. 使用了更深的网络结构且设计了具有独创性的网络结构;
  4. 使用了比AlexNet更为激进的图片修剪技术(即数据增强)。

设计了 Inception 模块

Inception这个名字来源于Lin et al

M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013.

结合著名的“we need to go deeper”网络

Know your meme: We need to go deeper.
http://knowyourmeme.com/memes/we-need-to-go-deeper .
Accessed: 2014-09-15.

。Inception模块可以更直接地意识到增加的网络深度,Inception模块的结构如下所示:
Inception模块结构图
图(a)是简单版的Inception模块结构,可以看见里面包含了 1 × 1 1\times1 1×1
3 × 3 3\times3 3×3 5 × 5 5\times5 5×5的卷积和 3 × 3 3\times3 3×3的最大池化,从图上的结构看这三个卷积滤波器和 3 × 3 3\times3 3×3的最大池化是平行的,但这样做会导致输出数量逐级增加的问题。因此出现了改进版的Inception模块结构,即图(b)所示的降维版本的Inception模块结构,其相比于简单版的Inception模块结构在 3 × 3 3\times3 3×3 5 × 5 5\times5 5×5的卷积和 3 × 3 3\times3 3×3的最大池化处使用了 1 × 1 1\times1 1×1的卷积滤波器降低了模块的维度,具体是将 1 × 1 1\times1 1×1的卷积滤波器加在了 3 × 3 3\times3 3×3 5 × 5 5\times5 5×5的卷积滤波器的前方,将 1 × 1 1\times1 1×1的卷积滤波器加在了 3 × 3 3\times3 3×3的最大池化的后方。这样做不仅可以降维,还能通过ReLU激活函数嵌入更多非线性信息。

加入了Inception模块后能加速网络以及避免梯度爆炸。

使用了更小的卷积滤波器

先放上一张GoogLeNet的参数图:
GoogLeNet参数图

上图非常详细地说明了使用了何种事物来构建网络,连每个部分的参数量以及占用内存空间都一一写出,实在是详细至极,使人能够一眼就看出该网络的不同之处。
可以看到Convolution和Inception都是占用内存最大的部分。传统意义上的卷积层只出现了2次,需要注意的是第一个卷积层是 7 × 7 7\times7 7×7且步长为2的卷积滤波器,这是一个比较大的卷积滤波器,步长为2使得其精度有所下降。传统意义上的池化层只出现了5次,需要注意的是最后一个池化层是 7 × 7 7\times7 7×7的平均池化而非最大池化。网络的主体由降维的Inception模块构成。这些小的卷积滤波器主要是出现在Inception模块中。
有趣的一点是这里的每一层的通道数都不一定是2的次方,比如说192,480,528和832,但是都满足网络越深通道越多的思想,原因的话应该是做了大量的实验跑出来的最有结果。

使用了更深的网络结构且设计了具有独创性的网络结构

首先先直接放上网络结构图,由于该网络有22层(算上池化层的话有27层),因此这个图会非常的长。
GoogLeNet结构图
该网络的结构在上节已基本说明清楚了,但在这需要特别解释的一个地方就是
该网络在第4个Inception模块和第7个Inception模块处都并行输出了一个Softmax分类结果,然后在训练时这两个Softmax处也进行反向传播,来应对梯度消失的问题。
该网络的dropout的丢失比率设置为70%。

使用了比AlexNet更为激进的图片修剪技术(即数据增强)

该文章将图像调整为256,288,320和352的尺寸的图像,取这些尺寸调整后的左中右三个部分的方格(如果是肖像画则取上中下三个部分的方格),对于每个放格取其左上、左下、右上、右下和中心的 224 × 224 224\times224 224×224大小的裁剪以及它们的镜像,总共每张图片有 4 × 3 × 6 × 2 = 144 4\times3\times6\times2=144 4×3×6×2=144个版本。相当于数据多了144倍。

最后献上数值实验的结果

ILSVRC14比赛结果图:
比赛结果

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值