重要属性:局部连接、权值共享、平移不变性
局部连接:每个神经元不再和上一层的所有神经元相连,而只和一小部分神经元相连,从而可显著降低网络参数量。
权值共享:不同位置处的神经元共享同一组权重(滤波器),可进一步降低网络参数量
平移不变性:滤波器可捕获与图像空间位置无关的区域特征
三种基础组件
• 卷积层(Convolutional Layer)
• 激活层 (Activation Layer)
• 池化层 ( Pooling Layer )
一 卷积层
(1)卷积运算
继续做同样的元素乘法,然后加起来,直到遍历了整个矩阵
当输入图像为三通道时,卷积操作如下
推广到n channel
输入的通道数是多少,filter的通道数就为多少,对应的通道 分别做卷积,得到的结果再相加。则得到了一个通道数为1的结果。
推广到 N Input Channels and M Output Channels
用多个filter分别进行卷积,把卷积结果cat到一起得到最终 结果
(2)padding
➢ 填充是构建卷积层的一个基本操作
➢ 在空间维度上,对卷积层输入的四周各填充 𝑝 个像素
first:
second:一般情况?
third:当满足下述关系时,卷积的输出在空间维度上与输入保持一致
(3)stride(步幅)
作用:成倍地缩小卷积输出的空间尺寸,且缩小倍数等于Stride的值
如图所示,stride=2,每次把kernel平移两格
(4)如何在pytorch中实现?
(5)一个计算题
(6)卷积层小结
(7)补充:1x1的卷积
What is 1x1 convolution?
Why is 1x1 convolution?
可以看出,先使用1x1的卷积显著减少了计算量
1 × 1卷积通常用于特征降维,即在通道数方向上进行压缩
是减少网络计算量和参数的重要方式
二 池化层
使用某一位置的相邻区域的总体统计特性来代替网络在该位置的输出, 在保留有用信息的同时,减少特征图的空间大小增大网络的感受野,且进一步减少后续层的参数。
(1)最大池化(Max Pooling)
(2)平均池化(Average Pooling)
(3)池化层小结
三 激活层
四、感受野
神经网络中的感受野,指网络中神经元对原输入图像的感受范围大小
卷积层数越深,相应神经元的感受野越大
池化层:在不增加网络参数的情况下,增大网络感受野
神经元感受野越大,表明其能看到的原始图像范围越大,也意味着更能捕获到更全局、语义层次更高的特征;反正,则表示所捕获的特征越趋向于局部和细节。
全连接层的感受野?
五、CNN Backbones
(1)VGG
对于VGG16 来讲他的网络结构是下面这样的:
VGG采用连续多个3×3的卷积核代替AlexNet中的较大卷积核:
--使用3个3×3卷积核来代替7×7卷积核
--使用2个3×3卷积核来代替5×5卷积核
➢ 优点:在保证具有相同感知野的条件下,减小网络参数量,增大网络深度,提升神经网络性能
(2)GoogLeNet
Inception模块
➢同时使用多个大小不同的卷积核 (即1 × 1、3 × 3、5 × 5),且将得到的特征在通道维度上拼接(Concatenation)作为最终输出
➢ 采用不同大小的卷积核意味着不同大小的感受野,最后拼接意味着不同尺度特征的融合
➢采用1×1卷积进行降维 (Stride=1, Padding=0)
》》如何在pytorch中实现?
GoogLeNet的网络结构
➢ 由多个Inception模块堆叠而成
➢ 没有全连接层
(3)ResNet
残差单元 : 给卷积层增加跳连(Skip Connetction),以提升信息的传播效率,使网络更容易优化
》》如何在pytorch中实现?