1 AI论文笔记--Going deeper with convolutions (InceptionV1)

最新推荐文章于 2023-08-18 12:39:06 发布

淮gg

最新推荐文章于 2023-08-18 12:39:06 发布

阅读量463

点赞数

分类专栏： AI论文小笔记文章标签：卷积网络计算机视觉人工智能机器学习

本文链接：https://blog.csdn.net/weixin_44994302/article/details/117434523

版权

AI论文小笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1 AI论文笔记–Going deeper with convolutions（2014年论文）-InceptionV1

原文链接：https://arxiv.org/abs/1409.4842

还不错的CSDN全文翻译：https://huangfei.blog.csdn.net/article/details/70336079

还不错的InceptionV1-V4论文小结： https://blog.csdn.net/qq_30815237/article/details/89046890
论文课程学习来自—知识星球—同济子豪兄

文章主要说明了如何改变网络结构本身（并不是一昧地加深），来优化模型的性能。
如本文提出了一种可以嵌入到CNN模型中的Inception模块，该模块在保证模型性能的同时大大减少了网络中的参数量。

论文掌握：
- 1 提出了Inception模块，为保证模型的宽度采用了1x1，3x3，5x5的卷积核，该v1模型有22层layers保证深度；
- 2 为提高计算效率，提出在3x3和5x5卷积核前使用1x1卷积核进行降维，降低feature map厚度，避免计算量爆炸；
- 3 设计一个稀疏的网络结构（如在同一层有不同尺度的卷积核），但最后能通过concatenation产生致密的数据，增加网络的表现；

Inception模块如下图
在这里插入图片描述

论文结构

Abstract

1 Introduction

2 Related Work

3 Motivation and High Level Considerations

4 Architectural Details

5 GoogLeNet

6 Training Methodology

7 ILSVRC 2014 Classification Challenge Setup and Results

8 ILSVRC 2014 Detection Challenge Setup and Results

9 Conclusions

10 Acknowledgements

References

摘要

在保证网络的深度和宽度的同时，为减少网络的计算量，提出了一种Inception模块的思想。
为优化性能，结构的思想源于Hebbian principle（赫布理论） 和multi-scale processing（多尺度信息处理）
在CNN模型中加入了Inception，提出了GoogLeNet（a 22 layers deep network）模型，并获得ILSVRC14的图像分类和目标检测冠军

前言

近年来，图像识别和目标检测得到飞速进展，不仅是由于硬件、数据集和更庞大的模型的出现，而是新的模型思路和改进结构，如GoogLeNet比AlexNet少12倍参数量 ，且更加精确。
目前算法不能一昧追求精度提高，还要考虑计算效率、能耗、内存占用等因素，让他们有可能部署于嵌入式设备中

Inception模块思想来源

提高模型性能的传统方法：1、增加网络深度（层数） 2、增加宽度（卷积核的个数）

提出问题：
- 1、更大更深的网络结构，参数量越多，越容易过拟合（特别是对于小数据集）
- 2、计算效率变低，如很多权重训练后变成0，那么这部分计算就被浪费了
提出解决思路：
- 1、受生物学的启发，利用稀疏连接结构代替密集连接结构（当时AlexNet和VGG都是密集连接）
- 2、但当时硬件对稀疏连接的结构运算并不友好（On the downside, todays computing infrastructures are very inefficient when it comes to numerical calculation on non-uniform sparse data structures.）
- 3、提出疑问： 能否在现有硬件计算密集矩阵运算条件下，改进模型结构（哪怕是在卷积层水平的改进），从而能够利用额外的稀疏性？
- 4、大量的文献表明，将稀疏矩阵分解为密集的子矩阵，能加速矩阵的乘法。

结构细节

Inception主要思想：利用密集模块去近似出局部最优稀疏结构。
Inception模块结构如下：

a为原生Inception模块，b为改进版Inception模块（增加了1*1的卷积降维）。
a中采用多尺度卷积核的优点在于：一张图片中无论目标尺寸大小如何，总有一个卷积核能够捕捉到该目标。a带来的缺点在于模型传递过程中会消耗大量的计算资源。因此考虑b改进版，利用1*1的卷积进行降维，既可在保证信息量的前提下，又可以减少计算量。

GoogLeNet结构

在这里插入图片描述

TIPS：

目标检测，以R-CNN为代表的两阶段方法：
- 1.先找出候选区域（selective search）
- 2.对每个候选区域运用CNN
Hebbian principle（赫布学习法则）： 在本文中指的是将不同神经元提取到的特征进行融合，高度相关的神经元会连在一起。
- 用子豪兄的例子：比如说识别一只猫，有一些神经元是提取猫胡子的，有一些提取猫脸的，有一些提取猫尾巴的。如果图像中有一只猫的话，那在识别的过程中，这些神经元就会高度相关。
1*1卷积核如何降维：

附上本文GoogLeNet结构（有点长）：

GoogLeNet结构

淮gg

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
1 AI论文笔记--Going deeper with convolutions (InceptionV1)

1 AI论文笔记–Going deeper with convolutions（2014年论文）原文链接：https://arxiv.org/abs/1409.4842还不错的CSDN全文翻译：https://huangfei.blog.csdn.net/article/details/70336079还不错的InceptionV1-V4论文小结： https://blog.csdn.net/qq_30815237/article/details/89046890文章主要说明了如何改变网络结构
复制链接

扫一扫