GoogLeNet学习笔记

最新推荐文章于 2022-07-30 23:46:46 发布

阿妖偷你奶瓶

最新推荐文章于 2022-07-30 23:46:46 发布

阅读量504

点赞数

分类专栏：神经网络文章标签： GoogLeNet

本文链接：https://blog.csdn.net/xiaoliyi185/article/details/102756723

版权

神经网络专栏收录该内容

1 篇文章 0 订阅

订阅专栏

GoogLeNet论文学习笔记

Abstract
Introduction
Realted Work
Motivation and High Level Considerations
Architectural Details
GoogLeNet
- 特点：

Abstract

Inception的最大特点：提高网络内部计算资源的利用率
架构决策基于Hebbian原则和多尺度处理。

关于Hebbian原则和多尺度处理的理解：
详细的解释可参考这篇博客，解释的很好。
（我只是勤劳的搬运工）

Hebbian原则的理解：
Hebbian principle的精确表达就是如果两个神经元常常同时产生动作电位，或者说同时激动，这两个神经元之间的连接就会变强，反之则变弱。举个例子就是，在给狗喂食时，先摇铃铛，之后再喂食，久而久之，狗听到铃铛就会口水连连。这就是狗的“听到”铃铛的神经元与“控制”流口水的神经元之间的链接被加强了。用在神经网络里就是当某个数据集的分布可以用一个稀疏网络表达的时候就可以通过分析某些激活值的相关性，将相关度高的神经元聚合，来获得一个稀疏的表示。
多尺度处理的理解：
在某些特征检测提取算法中（如sift等），用到的某些算子会对图像的某些信息作出反应，例如图像当中像素点快速变化的一些区域（一般就是图像当中的一些边缘信息），然后记录下来，形成该图的一组特征。但是某些时候我们的图往往是不能确定大小的（这个大小，也可以理解为相同大小时候，图像的模糊程度），需要做的就是在图像不同大小时，算法都能有效的提出相同的关键点。
由此，我们需要对一张图，生成一组由清晰逐渐变模糊的一组图像，这就是图像的多尺度。总的来说，多尺度模拟了不同远近的相同物体在视网膜上的形成。而尺度不变性保证不同远近物体可以对视觉神经有相同的刺激。
Gabor滤波器就是为了保证对不同尺度的图像，都能检测出相同特征。论文的模型采用了这一观点，使用不同大小的卷积核来提升不同尺度
图像的检测能力。

Introduction

使用同样的数据，比Alexnet少12倍的参数就可以实现比Alexnet更好的结果。
即使在一个很大的数据集上，也能实现合理的cost，可以实际应用。

Realted Work

尽管人们担心最大池化层层会导致精确的空间信息丢失，但与Alexnet同样的结构已经被成功地用于定位，目标检测，和人体姿态估计。
使用了一系列固定的不同大小的Gabor滤波器来处理多尺度。在初始模型中的所有滤波器都是学习的。
Inception层重复了很多次，在GoogLeNet模型中得到了一个22层的深度模型。
在架构中大量使用1x1卷积。具有双重用途：主要用作降维模块，以消除计算瓶颈，否则会限制网络的规模。这不仅允许增加深度，而且还允许网络的宽度没有显著的性能损失。

Motivation and High Level Considerations

最简单的提高网络性能的方法：
增加宽度和深度。
深度：增加层的个数
宽度：增加每一层的神经元个数
该方法的缺点：
1. 增加了参数数量，（数据集有限的情况下）容易产生过拟合，而获得高品质的数据集可能是很困难的，尤其是一些需要专业人员才能制作的数据集。
2. 造成了计算资源的浪费。
解决以上问题的根本方法就是把全连接的网络变为稀疏连接（卷积层其实就是一个稀疏连接），当某个数据集的分布可以用一个稀疏网络表达的时候就可以通过分析某些激活值的相关性，将相关度高的神经元聚合，来获得一个稀疏的表示。
缺点是，今天的计算架构对于非均匀稀疏数据结构的数值计算效率很低。目前大多数面向视觉的机器学习系统都是利用空间域的稀疏性来实现的。但是，卷积是作为与前一层中的patches的密集连接的集合来实现的。
将稀疏矩阵聚类成相对密集（dense）的子矩阵，往往会给稀疏矩阵乘法提供最先进的实际性能。

怎么理解dense和sparse？
dense和sparse都是形容网络结构中的隐层的。
如果一个隐藏层和前面的输入层和后面的输出层有很多连结，那么就可以称为是dense。比如全连接层就是dense。而dropout随机删掉一些神经原就是sparse，包括卷积操作也是sparse。直观理解起来，就是形容这个层是紧密连接的（dense）还是稀疏连接的（sparse）。

Architectural Details

主要idea：找出卷积视觉网络中最优的局部稀疏结构是如何被容易获得的密集分量所覆盖的。
Arora等人提出一种逐层结构，对上一层的相关统计量进行分析，并将其聚成一组具有高度相关性的单元。相关的块会集中在一个单一的区域，可以被1x1代替。作者认为空间上扩展后的块可以被更大的卷积块代替。
因为池化有用，所以加了一个单独的池化层进行并行计算。
得到的初始图像如下图图a，但是这样即使是3x3的卷积核也需要很大的计算量，所以加入1x1实现降维，减少了参数量。同时1x1引入了新的非线性操作，增加了模型的非线性。
Inception模型的好处：

可以增加每层神经元的个数而不用考虑复杂度的问题，提高了2-3倍的速度。
它与直觉一致，即视觉信息应该在不同的尺度上进行处理，然后进行聚类，以便下一阶段能够同时从不同的尺度中提取特征。

为了训练时的内存效率，可以只在高层使用inception，浅层使用传统的卷积网络，但这不是必要的，只是因为基础设施低下时的折中办法。

在这里插入图片描述

GoogLeNet

在这里插入图片描述

特点：

增加与中间层相连接的辅助分类器，在分类器的较低阶段增强识别，增加传播回来的梯度信号，并提供额外的正则化。
去掉一层全连接层，减少参数。

后面基本都是一些实验结果，就不贴出来了，附上两篇我觉得写的不错的文章链接
Google Inception Net论文细读
 GoogLeNet的心路历程（二）
需要好好学习一下人家看完论文以后是怎么总结的

阿妖偷你奶瓶

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
GoogLeNet学习笔记

GoogLeNet学习笔记Abstract和IntroductionIntroductionRealted WorkAbstract和IntroductionInception的最大特点：提高网络内部计算资源的利用率架构决策基于Hebbian原则和多尺度处理（？）关于Hebbian原则和多尺度处理的理解：详细的解释可参考这篇博客，解释的很好。（我只是勤劳的搬运工）Hebbia...
复制链接

扫一扫

专栏目录