经典卷积神经网络架构

1、Alexnet

(2012年ImageNet大规模图像识别挑战赛冠军)

在这里插入图片描述
在这里插入图片描述

11X11 conv, 96, /4, pool/2
5x5 conv, 256, pool/2
3x3 conv, 384
3x3 conv, 384
3x3 conv, 256,pool/2
fc,4096
fc,4096
fc,4096

conv1:
卷积

  • 输入维度:224x224x3经过扩展后变成227x227x3
  • 卷积核维度:11x11x3x96,步长4,无全0填冲
  • 经过卷积后,图像的尺寸为 227 − 11 4 + 1 = 55 \frac {227-11} 4+1=55 422711+1=55;输出图像维度为:55x55x96
  • 结果被分到2组,即2个55x55x48(总体为55x55x96)
  • 经过relu激活函数,送到最大池化层

池化

  • 内核维度:3x3,步长2
  • 输出结果:2个27x27x48;尺寸: 55 − 3 2 + 1 = 27 \frac {55-3} 2+1=27 2553+1=27
  • 合并之后,图像的维度为27x27x96

最后进行了局部响应归一化(LRN)

conv2
卷积

  • 输入维度:2个27x27x48(总体为27x27x96)
  • 卷积核维度:5x5x96x256,步长1,全0填冲,上下左右各填冲2个像素
  • 输出结果:2个27x27x128;尺寸: 27 − 5 + 2 ∗ 2 1 + 1 = 27 \frac {27-5+2*2} 1+1=27 1275+22+1=27
  • 经过relu激活函数送到最大池化层

池化

  • 内核维度:3x3,步长2
  • 输出结果:2个13x13x128;尺寸: 27 − 3 2 + 1 = 13 \frac {27-3} 2+1=13 2273+1=13
  • 合并之后,图像的维度为13x13x256

最后进行了局部响应归一化(LRN)

conv3
卷积

  • 输入维度:13x13x256
  • 卷积核维度:3x3x256x384,步长1,全0填冲,上下左右各填充1个像素
  • 输出结果:13x13x384;尺寸: 13 − 3 + 2 ∗ 1 1 + 1 = 13 \frac {13-3+2*1} 1+1=13 1133+21+1=13

通过relu激活,最后进行了局部响应归一化(LRN)

conv4
卷积

  • 输入维度:13x13x384
  • 卷积核维度:3x3x384x384,步长1,全0填冲,上下左右各填充1个像素
  • 输出结果:13x13x384;尺寸: 13 − 3 + 2 ∗ 1 1 + 1 = 13 \frac {13-3+2*1} 1+1=13 1133+21+1=13

通过relu激活,最后进行了局部响应归一化(LRN)

conv5
卷积

  • 输入维度:2个13x13x192
  • 卷积核维度:2个3x3x192x128,步长1,全0填冲,上下左右各填充1个像素
  • 输出结果:2个13x13x128;尺寸: 13 − 3 + 2 ∗ 1 1 + 1 = 13 \frac {13-3+2*1} 1+1=13 1133+21+1=13
  • 经过relu激活函数送到最大池化层

池化

  • 内核维度:3x3,步长2
  • 输出结果:2个6x6x128;尺寸: 13 − 3 2 + 1 = 6 \frac {13-3} 2+1=6 2133+1=6
  • 合并之后,图像的维度为6x6x256

最后进行了局部响应归一化

全连接层1(FC1)
之后的网络可以看作是简单的前馈神经网络

  • 输入维度:6x6x256;为了进行前向传播,必须将矩阵拉成一维向量,即转化为:1x(6x6x256)=1x9216
  • conv5与FC1层之间的权重:9216x4096;偏置维度:1x4096
  • 结果:1x4096
  • relu激活函数,dropout处理,概率为0.5

全连接层2(FC2)

  • 输入维度:1x4096
  • FC1与FC2之间的权重:4096x4096;偏置维度:1x4096
  • 结果:1x4096
  • relu激活函数,dropout处理,概率为0.5

全连接层3(FC3)

  • 输入维度:1x4096
  • FC1与FC2之间的权重:4096x1000;偏置维度:1x1000
  • 结果:1x1000
  • softmax激活函数,得到的1000维向量代表了1000种分类的概率

在这里插入图片描述

2、Inception net(googlenet)

(2014年ImageNet大规模图像识别挑战赛冠军)

inception模块
在这里插入图片描述
inception模块构造部分代码
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3、VGGnet

(2014年ImageNet大规模图像识别挑战赛亚军)

在这里插入图片描述
小卷积核3x3,两个3x3相当于一个5x5,可以减少参数量

vgg_block:多个卷积层+1个最大池化层
vgg_stack:多个vgg_block

在这里插入图片描述

4、Resnet

(2015年ImageNet大规模图像识别挑战赛冠军,首次在1000类图像识别任务中超越人类;2016年CVPR最佳论文)
在这里插入图片描述
在这里插入图片描述
使得浅层网络的参数可以训练更新

bottleneck结构:参数左右大体相同,增加了网络深度
在这里插入图片描述
resnet不同层数时的网络配置:
在这里插入图片描述
在这里插入图片描述

5、Densenet

(2017年CVPR最佳论文)

在这里插入图片描述

参考文献:
http://blog.csdn.net/qq_30091945
https://blog.csdn.net/u013841196/article/details/80713314

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值