【dive2deep learning学习记录】6 卷积神经网络

maze2023

已于 2022-03-28 15:36:59 修改

阅读量3.6k

点赞数

分类专栏： dive 2 deep learning 文章标签：机器学习神经网络 python 深度学习

于 2022-03-28 10:56:39 首次发布

本文链接：https://blog.csdn.net/youzhizhe2014/article/details/123789613

版权

dive 2 deep learning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

6 卷积神经网络

本系列博客仅作为学习dive2deep learning一书的学习记录，未严格按照其章节行文，未经许可严禁转载

6.1 从全连接层到卷积

适合于神经网络的两大原则

在这里插入图片描述

平移不变性(translation invariance)：不管检测对象出现在图像中的哪个位置，神经网络的前面几层应该对相同的图像区域具有相似的反应。图像的平移不变性使我们以相同的方式处理局部图像，而不在乎它的位置。
局部性(locality)：神经网络前面几层应该只探索输入图像中的局部区域，而不过度在意图像中相隔较远区域的关系，最终，可聚合这些局部特征以生成整个图像的全局特征。局部性意味着计算相应的隐藏表示只需一小部分局部图像像素。

概念

卷积的概念

数学概念

在这里插入图片描述

离散对象卷积（解释了为什么卷积为什么从积分转变成求和）

当两者为离散值时，积分就会变为求和：

一维向量：
二维张量，即 $f$ 的索引 $(a, b)$ 和 $g$ 的索引 $(i - a, j - b)$ 上的对应加和：

卷积层的意义

卷积层的物体意义： 使用卷积核对图像特定区域进行局部特征提取。
卷积层的数学意义： 使用系数 $V]_{a,b}$ 对位置 $(i, j)$ 附近的像素 $(i + a, j + b)$ 进行加权得到 $H]_{i,j}$ 。

在这里插入图片描述

$V$ ——卷积核(kernel)、滤波器(filter)，或卷积层的可学习权重；

归纳偏置

神经网络权重学习方式为归纳偏置：当这种偏置与现实相符时，我们就能得到样本有效的模型，并且这些模型能很好地泛化到未知数据中。但如果这偏置与现实不符时，比如当图像不满足平移不变时，我们的模型可能难以拟合我们的训练数据。

通道

上面的卷积层只对二维张量有效，而

图像是由高度、宽度和颜色组成的三维张量，如 $1024 * 1024 * 3$ 为 $高度 H * 宽度 W * 通道数 D （颜色数： R G B ）$ ，高度和宽度与像素的空间位置有关；
卷积核也应调整为三维： $V]_{a,b,c}$ ；
隐藏表示 $H$ 也最好采用三维，我们可以把隐藏表示想象为一系列具有二维张量的通道（channel）。这些通道有时也被称为特征映射（feature maps），因为每个通道都向后续层提供一组空间化的学习特征。 直观上你可以想象在靠近输入的底层，一些通道专门识别边缘，而一些通道专门识别纹理。

在此基础上，可定义具有多个通道的卷积层：

在这里插入图片描述

其中隐藏表示 $H$ 中的索引 $d$ 表示输出通道，而随后的输出将继续以三维张量 $H$ 作为输入进入下一个卷积层。所以，上式可以定义具有多个通道的卷积层，而其中V是该卷积层的权重。

多个输入和输出通道使模型在每个空间位置可以获取图像的多方面特征。

6.2 图像卷积

二维卷积

在这里插入图片描述

$输出尺寸=（H_{输入}－H_{卷积核}+1）*（W_{输入}－W_{卷积核}+1）$
卷积层：对输入和卷积核权重做互相关运算，并添加偏置之后产生输出。
卷积层中的两个被训练的参数是卷积核权重和标量偏置。

概念

特征映射

卷积层有时被称为特征映射（feature map），因为它可以被视为一个输入映射到下一层的空间维度的转换器。

感受野

对于某一层的任意元素 $x$ ，其感受野(receptive field)是指前向传播期间可能影响 $x$ 计算的所有元素（输入图像上的元素）（来自所有先前层）。以上图为例，给定2×2卷积核，阴影输出元素值19的感受野是输入阴影部分的四个元素。
当需要检测输入特征中更广区域时，我们可以构建一个更深的卷积网络。

互相关与真实卷积

学习卷积核时，无论用严格卷积运算或互相关运算，卷积层的输出不会受太大影响。

6.3 填充和步幅

填充(padding)

作用

增加输出的高度和宽度，防止原始图像边缘像素的丢失。

做法

在输入图像的边界填充元素，通常填0。

输出维度计算

在卷积核尺寸为 $k_h*k_w$ ， $n_h*n_w$ 原始图像上，添加 $p_h$ 行、 $p_w$ 列填充，输出维度为：
$n_h-k_h+p_h+1)*(n_w-k_w+p_w+1)$
即输出的宽度和高度将分别增加 $p_h$ 和 $p_w$ 。

若想让输出维度与输入维度相同，即卷积后图像尺寸不变， 则需要：
$p_h=k_h-1\\ p_w=k_w-1$

假设 $k_h$ 是奇数，则 $k_h-1$ 为偶数，我们将在高度的两侧填充 $p h / 2$ 行。如果 $k_h$ 是偶数，则一种可能性是在输入顶部填充 $p h / 2$ 行，在底部填充 $p h / 2$ 行。同理，我们填充宽度的两侧。

卷积核的尺寸为什么通常为奇数

卷积神经网络中卷积核的高度和宽度通常为奇数，例如 $1 、 3 、 5$ 或 $7$ 。选择奇数的好处是，保持空间维度的同时，我们可以在顶部和底部填充相同数量的行，在左侧和右侧填充相同数量的列。

步幅(stride)

作用

可在原始的输入分辨率冗余的情况下大幅降低图像的高度和宽度；
高效计算或缩减采样次数。

定义

每次卷积窗口滑动的元素数。

输出维度计算

在卷积核尺寸为 $k_h*k_w$ ， $n_h*n_w$ 原始图像上，添加 $p_h$ 行、 $p_w$ 列填充，且垂直步幅为 $s_h$ 、水平步幅为 $s_w$ 时，输出维度为：
$n_h-k_h+p_h+s_h)/s_h]*[(n_w-k_w+p_w+s_w)/s_w]$
在实际中，通常使用相同的填充和相同的步幅。

6.4 多输入多输出通道

通道(channel)的定义

输入图片若为RGB三原色，则通道数为3；
在卷积神经网络中，卷积核的个数=通道数。

多输入通道的互相关运算

由于输入和卷积核都有 $c_i$ 个通道，我们可以对每个通道输入的二维张量和卷积核的二维张量进行互相关运算，再对通道求和（将 $c_i$ 的结果相加）得到二维张量。

在这里插入图片描述

多输出通道

在最流行的神经网络架构中，随着神经网络层数的加深，我们常会增加输出通道的维数，通过减少空间分辨率以获得更大的通道深度。直观地说，**我们可以将每个通道看作是对不同特征的响应。**而现实可能更为复杂一些，因为每个通道不是独立学习的，而是为了共同使用而优化的。因此，多输出通道并不仅是学习多个单通道的检测器。

用 $c_i$ 和 $c_o$ 分别表示输入和输出通道的数目，并让 $k_h$ 和 $k_w$ 为卷积核的高度和宽度。为了获得多个通道的输出，我们可以为每个输出通道创建一个形状为 $c_i×k_h×k_w$ 的卷积核张量，这样卷积核的形状是 $c_o×c_i×k_h×k_w$ 。在互相关运算中，每个输出通道先获取所有输入通道，再以对应该输出通道的卷积核计算出结果。

输出的通道数与输出通道数一致。

1×1卷积层

1×1卷积的作用

卷积层的本质是在高度和宽度上识别相邻元素间相互作用的能力，而1×1卷积的唯一计算发生在通道上。

图6.4.2展示了使用 $1 \times 1$ 卷积核与 $3$ 个输入通道和 $2$ 个输出通道的互相关计算。这里输入和输出具有相同的高度和宽度，输出中的每个元素都是从输入图像中同一位置的元素的线性组合。我们可以将 $1 \times 1$ 卷积层看作是在每个像素位置应用的全连接层，以 $c_i(3)$ 个输入值转换为 $c_o(2)$ 个输出值。因为这仍然是一个卷积层，所以跨像素的权重是一致的。同时， $1 \times 1$ 卷积层需要的权重维度为 $c_o×c_i$ ，再额外加上一个偏置。

在这里插入图片描述

当以每像素为基础应用时，1×1卷积层相当于全连接层。

$1 \times 1$ 卷积层通常用于调整网络层的通道数量和控制模型复杂性。

CNN中的算力与参数量计算

算力/计算成本

概念

FLOPS：全大写，是floating point operations per second的缩写，意指每秒浮点运算次数，理解为计算速度，是一个衡量硬件性能的指标。
FLOPs： s小写，是floating point operations的缩写（s表复数），意指浮点运算数，理解为计算量，可以用来衡量算法/模型的复杂度。

卷积层

$C_i×K_H×K_W+C_i×K_H×K_W-1)×H_o×W_o×C_o$

其中，

2是因为一个MAC算2个operations;

$C_i$ ——输入通道数；

$C_o$ ——输出通道数；

$K_H×K_W$ ——卷积核尺寸；

$H_o×W_o$ ——输出特征图的高和宽；

不考虑bias时有-1，有bias时没有-1。

考虑bias：
$2×C_i×K_H×K_W×H_{out}×W_{out}×C_o$

例：用以下动图中直观的解释：

在这里插入图片描述

Image大小为 5x5

卷积核大小为 3x3

那么一次3x3的卷积（求右图矩阵一个元素的值）所需运算量：(3x3)个乘法+(3x3-1)个加法 = 17

要得到输出convolved feature（3x3的大小）：17x9 = 153

全连接层

$(2 \times I - 1) \times O$

其中，

2是因为一个MAC算2个operations;

$I$ ——输入神经元数目；

$O$ ——输出神经元数目。

参数量

卷积层(不考虑bias)

$C_i×K_W×K_H×C_o$

卷积层(考虑bias)

$C_i×K_W×K_H+1)×C_o$

练习

2.1

$2×C_i×K_h×K_w-1)×(h-k_h+1)×(w-k_w+1)×C_o$

2.2

$C_i×K_w×K_h×C_o$

6.5 汇聚层

汇聚层(pooling)的作用

降低卷积层对位置的敏感性，具体来说，通常当我们处理图像时，我们希望逐渐降低隐藏表示的空间分辨率、聚集信息，这样随着我们在神经网络中层叠的上升，每个神经元对其敏感的感受野（输入）就越大。而我们的机器学习任务通常会跟全局图像的问题有关（例如，“图像是否包含一只猫呢？”），所以我们最后一层的神经元应该对整个输入的全局敏感。通过逐渐聚合信息，生成越来越粗糙的映射，最终实现学习全局表示的目标，同时将卷积图层的所有优势保留在中间层；
降低对空间下采样表示的敏感性，保持某种程度上的平移不变。