深度学习 CNN 数学推导

最新推荐文章于 2023-11-19 19:35:09 发布

Mestarxh

最新推荐文章于 2023-11-19 19:35:09 发布

阅读量1.3k

点赞数 1

分类专栏：深度学习文章标签： CNN

本文链接：https://blog.csdn.net/wumian0123/article/details/82194954

版权

深度学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

什么是卷积神经网络

首先，我们先获取一个感性认识，下图是一个卷积神经网络的示意图：
这里写图片描述

网络架构

如图所示，一个卷积神经网络由若干卷积层、Pooling层、全连接层组成。你可以构建各种不同的卷积神经网络，它的常用架构模式为：

INPUT -> [[CONV]*N -> [POOL]]*M -> [FC]*K

也就是 $N$ 个卷积层叠加，然后(可选)叠加一个Pooling层，重复这个结构 $M$ 次，最后叠加 $K$ 个全连接层。

对于上图展示的卷积神经网络：

INPUT -> CONV -> POOL -> CONV -> POOL -> FC-> FC

按照上述模式可以表示为：

INPUT -> [[CONV]*1 -> POOL]*2 -> [FC]*2

也就是：

$N = 1, M = 2, K = 2$

三维的层结构

从图中我们可以发现卷积神经网络的层结构和全连接神经网络的层结构有很大不同。全连接神经网络每层的神经元是按照一维排列的，也就是排成一条线的样子；而卷积神经网络每层的神经元是按照三维排列的，也就是排成一个长方体的样子，有宽度、高度和深度。

对于图中展示的神经网络，我们看到输入层的宽度和高度对应于输入图像的宽度和高度，而它的深度为1。接着，第一个卷积层对这幅图像进行了卷积操作(后面我们会讲如何计算卷积)，得到了三个Feature Map。这里的"3"可能是让很多初学者迷惑的地方，实际上，就是这个卷积层包含三个Filter，也就是三套参数，每个Filter都可以把原始输入图像卷积得到一个Feature Map，三个Filter就可以得到三个Feature Map。至于一个卷积层可以有多少个Filter，那是可以自由设定的。也就是说，卷积层的Filter个数也是一个超参数。我们可以把Feature Map可以看做是通过卷积变换提取到的图像特征，三个Filter就对原始图像提取出三组不同的特征，也就是得到了三个Feature Map，也称做三个通道(channel)。

继续观察图中，在第一个卷积层之后，Pooling层对三个Feature Map做了下采样(后面我们会讲如何计算下采样)，得到了三个更小的Feature Map。接着，是第二个卷积层，它有5个Filter。每个Fitler都把前面下采样之后的3个Feature Map卷积在一起，得到一个新的Feature Map。这样，5个Filter就得到了5个Feature Map。接着，是第二个Pooling，继续对5个Feature Map进行下采样，得到了5个更小的Feature Map。

图中所示网络的最后两层是全连接层。第一个全连接层的每个神经元，和上一层5个Feature Map中的每个神经元相连，第二个全连接层(也就是输出层)的每个神经元，则和第一个全连接层的每个神经元相连，这样得到了整个网络的输出。

至此，我们对卷积神经网络有了最基本的感性认识。接下来，我们将介绍卷积神经网络中各种层的计算和训练。

卷积神经网络输出值的计算

卷积层输出值的计算

我们用一个简单的例子来讲述如何计算卷积，然后，我们抽象出卷积层的一些重要概念和计算方法。

假设有一个 $5\times 5$ 的图像，使用一个 $3\times3$ 的filter进行卷积，想得到一个 $3\times3$ 的Feature Map，如下所示：
这里写图片描述

为了清楚的描述卷积计算过程，我们首先对图像的每个像素进行编号，用 $x_{i,j}$ 表示图像的第 $i$ 行第 $j$ 列元素；对filter的每个权重进行编号，用 $w_{m,n}$ 表示第 $m$ 行第 $n$ 列权重，用 $w_b$ 表示filter的偏置项；对Feature Map的每个元素进行编号，用 $a_{i,j}$ 表示Feature Map的第 $i$ 行第 $j$ 列元素；用 $f$ 表示激活函数(这个例子选择relu函数作为激活函数)。然后，使用下列公式计算卷积：
$a_{i,j}=f(\sum_{m=0}^{2}\sum_{n=0}^{2}w_{m,n}x_{i+m,j+n}+w_b)\qquad(式1)$
例如，对于Feature Map左上角元素 $a_{0,0}$ 来说，其卷积计算方法为：
$a_{0,0}=f(\sum_{m=0}^{2}\sum_{n=0}^{2}w_{m,n}x_{m+0,n+0}+w_b)=relu(w_{0,0}x_{0,0}+w_{0,1}x_{0,1}+w_{0,2}x_{0,2}+w_{1,0}x_{1,0}+w_{1,1}x_{1,1}+w_{1,2}x_{1,2}+w_{2,0}x_{2,0}+w_{2,1}x_{2,1}+w_{2,2}x_{2,2}+w_b)=relu(1+0+1+0+1+0+0+0+1+0)=relu(4)=4$
计算结果如下图所示：
这里写图片描述
接下来，Feature Map的元素 $a_{0,1}$ 的卷积计算方法为：
$a_{0,1}=f(\sum_{m=0}^{2}\sum_{n=0}^{2}w_{m,n}x_{m+0,n+1}+w_b)=relu(w_{0,0}x_{0,1}+w_{0,1}x_{0,2}+w_{0,2}x_{0,3}+w_{1,0}x_{1,1}+w_{1,1}x_{1,2}+w_{1,2}x_{1,3}+w_{2,0}x_{2,1}+w_{2,1}x_{2,3}+w_{2,2}x_{2,3}+w_b)=relu(1+0+0+0+1+0+0+0+1+0)=relu(3)=3$
计算结果如下图所示：
这里写图片描述
可以依次计算出Feature Map中所有元素的值。下面的动画显示了整个Feature Map的计算过程：

上面的计算过程中，步幅(stride)为1。步幅可以设为大于1的数。例如，当步幅为2时，Feature Map计算如下：

我们注意到，当步幅设置为2的时候，Feature Map就变成2*2了。这说明图像大小、步幅和卷积后的Feature Map大小是有关系的。事实上，它们满足下面的关系：
$W_2 = (W_1 - F + 2P)/S + 1\qquad(式2)\\ H_2 = (H_1 - F + 2P)/S + 1\qquad(式3)$
在上面两个公式中， $W_2$ 是卷积后Feature Map的宽度； $W_1$ 是卷积前图像的宽度； $F$ 是filter的宽度； $P$ 是Zero Padding数量，Zero Padding是指在原始图像周围补几圈0，如果 $P$ 的值是1，那么就补1圈0； $S$ 是步幅； $H_2$ 是卷积后Feature Map的高度； $H_1$ 是卷积前图像的宽度。(式2)和(式3)本质上是一样的。

前面我们已经讲了深度为1的卷积层的计算方法，如果深度大于1怎么计算呢？其实也是类似的。如果卷积前的图像深度为 $D$ ，那么相应的filter的深度也必须为 $D$ 。我们扩展一下(式1)，得到了深度大于1的卷积计算公式：
$a_{i,j}=f(\sum_{d=0}^{D-1}\sum_{m=0}^{F-1}\sum_{n=0}^{F-1}w_{d,m,n}x_{d,i+m,j+n}+w_b)\qquad(式4)$
在(式4)中， $D$ 是深度； $F$ 是filter的大小(宽度或高度，两者相同)； $w_{d,m,n}$ 表示filter的第 $d$ 层第 $m$ 行第 $n$ 列权重； $a_{d,i,j}$ 表示图像的第 $d$ 层第 $i$ 行第 $j$ 列像素；其它的符号含义和(式1)是相同的，不再赘述。

我们前面还曾提到，每个卷积层可以有多个filter。每个filter和原始图像进行卷积后，都可以得到一个Feature Map。因此，卷积后Feature Map的深度(个数)和卷积层的filter个数是相同的。

下面的动画显示了包含两个filter的卷积层的计算。我们可以看到 $7\times7\times3$ 输入，经过两个 $3\times3\times3$ filter的卷积(步幅为2)，得到了 $3\times3\times2$ 的输出。另外我们也会看到下图的Zero padding是1，也就是在输入元素的周围补了一圈0。Zero padding对于图像边缘部分的特征提取是很有帮助的。
这里写图片描述
以上就是卷积层的计算方法。这里面体现了局部连接和权值共享：每层神经元只和上一层部分神经元相连(卷积计算规则)，且filter的权值对于上一层所有神经元都是一样的。对于包含两个 $3\times3\times3$ 的fitler的卷积层来说，其参数数量仅有 $(3\times3\times3+1)\times2=56$ 个，且参数数量与上一层神经元个数无关。与全连接神经网络相比，其参数数量大大减少了。

用卷积公式来表达卷积层计算

(式4)的表达很是繁冗，最好能简化一下。就像利用矩阵可以简化表达全连接神经网络的计算一样，我们利用卷积公式可以简化卷积神经网络的表达。

下面我们介绍二维卷积公式。

设矩阵 $A, B$ ，其行、列数分别为 $m_a$ 、 $n_a$ 、 $m_b$ 、 $n_b$ 、则二维卷积公式如下：
$C_{s,t}=\sum_0^{m_a-1}\sum_0^{n_a-1} A_{m,n}B_{s-m,t-n}$
且 $s, t$ 满足条件 $0\le{s}\lt{m_a+m_b-1}, 0\le{t}\lt{n_a+n_b-1}$ 。
我们可以把上式写成
$\times B\qquad(式5)$
如果我们按照(式5)来计算卷积，我们可以发现矩阵 $A$ 实际上是filter，而矩阵 $B$ 是待卷积的输入，位置关系也有所不同：
这里写图片描述
从上图可以看到， $A$ 左上角的值 $a_{0,0}$ 与 $B$ 对应区块中右下角的值 $b_{1,1}$ 相乘，而不是与左上角的 $b_{0,0}$ 相乘。因此，数学中的卷积和卷积神经网络中的『卷积』还是有区别的，为了避免混淆，我们把卷积神经网络中的『卷积』操作叫做互相关(cross-correlation)操作。

卷积和互相关操作是可以转化的。首先，我们把矩阵A翻转180度，然后再交换A和B的位置（即把B放在左边而把A放在右边。卷积满足交换率，这个操作不会导致结果变化），那么卷积就变成了互相关。

如果我们不去考虑两者这么一点点的区别，我们可以把(式5)代入到(式4)：
$A=f(\sum_{d=0}^{D-1}X_d\times W_d+w_b)\qquad(式6)$
其中， $A$ 是卷积层输出的feature map。同(式4)相比，(式6)就简单多了。然而，这种简洁写法只适合步长为1的情况。

Pooling层输出值的计算

Pooling层主要的作用是下采样，通过去掉Feature Map中不重要的样本，进一步减少参数数量。Pooling的方法很多，最常用的是Max Pooling。Max Pooling实际上就是在nn的样本中取最大值，作为采样后的样本值。下图是22 max pooling：
这里写图片描述

除了Max Pooing之外，常用的还有Mean Pooling——取各样本的平均值。

对于深度为D的Feature Map，各层独立做Pooling，因此Pooling后的深度仍然为D。

全连接层

全连接层输出值的计算和神经网络讲过的全连接神经网络是一样的，这里就不再赘述了。

卷积神经网络的训练

和全连接神经网络相比，卷积神经网络的训练要复杂一些。但训练的原理是一样的：利用链式求导计算损失函数对每个权重的偏导数（梯度），然后根据梯度下降公式更新权重。训练算法依然是反向传播算法。

我们先回忆一下反向传播算法，整个算法分为三个步骤：

前向计算每个神经元的输出值 $a_j$ （ $j$ 表示网络的第 $j$ 个神经元，以下同）；
反向计算每个神经元的误差项 $\delta_j$ ， $\delta_j$ 在有的文献中也叫做敏感度(sensitivity)。它实际上是网络的损失函数 $E_d$ 对神经元加权输入 $net_j$ 的偏导数，即 $\delta_j=\frac{\partial{E_d}}{\partial{net_j}}$ ；
计算每个神经元连接权重 $w_{ji}$ 的梯度（ $w_{ji}$ 表示从神经元 $i$ 连接到神经元 $j$ 的权重），公式为 $\frac{\partial{E_d}}{\partial{w_{ji}}}=a_i\delta_j$ ，其中， $a_i$ 表示神经元 $i$ 的输出。

最后，根据梯度下降法则更新每个权重即可。

对于卷积神经网络，由于涉及到局部连接、下采样的等操作，影响到了第二步误差项 $\delta$ 的具体计算方法，而权值共享影响了第三步权重 $w$ 的梯度的计算方法。接下来，我们分别介绍卷积层和Pooling层的训练算法。

卷积层的训练

对于卷积层，我们先来看看上面的第二步，即如何将误差项 $\delta$ 传递到上一层；然后再来看看第三步，即如何计算filter每个权值 $w$ 的梯度。

卷积层误差项的传递

最简单情况下误差项的传递

我们先来考虑步长为1、输入的深度为1、filter个数为1的最简单的情况。

假设输入的大小为 $3\times3$ ，filter大小为 $2\times2$ ，按步长为1卷积，我们将得到 $2\times2$ 的feature map。如下图所示：
这里写图片描述

在上图中，为了描述方便，我们为每个元素都进行了编号。用 $\delta^{l-1}_{i,j}$ 表示第 $l - 1$ 层第 $i$ 行第 $j$ 列的误差项；用 $w_{m,n}$ 表示filter第 $m$ 行第 $n$ 列权重，用 $w_b$ 表示filter的偏置项；用 $a^{l-1}_{i,j}$ 表示第 $l - 1$ 层第 $i$ 行第 $j$ 列神经元的输出；用 $net^{l-1}_{i,j}$ 表示第 $l - 1$ 行神经元的加权输入；用 $\delta^l_{i,j}$ 表示第 $l$ 层第 $i$ 行第 $j$ 列的误差项；用 $f^{l-1}$ 表示第 $l - 1$ 层的激活函数。它们之间的关系如下：
$net^l=conv(W^l, a^{l-1})+w_b\\ a^{l-1}_{i,j}=f^{l-1}(net^{l-1}_{i,j})$
上式中， $net^l$ 、 $W^l$ 、 $a^{l-1}$ 都是数组， $W^l$ 是由 $w_{m,n}$ 组成的数组， $c o n v$ 表示卷积操作。

在这里，我们假设第 $l$ 中的每个 $\delta^l$ 值都已经算好，我们要做的是计算第 $l - 1$ 层每个神经元的误差项 $\delta^{l-1}$ 。

根据链式求导法则：
$\delta^{l-1}_{i,j}=\frac{\partial{E_d}}{\partial{net^{l-1}_{i,j}}}=\frac{\partial{E_d}}{\partial{a^{l-1}_{i,j}}}\frac{\partial{a^{l-1}_{i,j}}}{\partial{net^{l-1}_{i,j}}}$
我们先求第一项 $\frac{\partial{E_d}}{\partial{a^{l-1}_{i,j}}}$ 。我们先来看几个特例，然后从中总结出一般性的规律。

例1，计算 $\frac{\partial{E_d}}{\partial{a^{l-1}_{1,1}}}$ ， $a^{l-1}_{1,1}$ 仅与 $net^l_{1,1}$ 的计算有关：
$net^j_{1,1}=w_{1,1}a^{l-1}_{1,1}+w_{1,2}a^{l-1}_{1,2}+w_{2,1}a^{l-1}_{2,1}+w_{2,2}a^{l-1}_{2,2}+w_b$
因此：
$\frac{\partial{E_d}}{\partial{a^{l-1}_{1,1}}}=\frac{\partial{E_d}}{\partial{net^{l}_{1,1}}}\frac{\partial{net^{l}_{1,1}}}{\partial{a^{l-1}_{1,1}}}=\delta^l_{1,1}w_{1,1}$
例2，计算 $\frac{\partial{E_d}}{\partial{a^{l-1}_{1,2}}}$ ， $a^{l-1}_{1,2}$ 与 $net^l_{1,1}$ 和 $net^l_{1,2}$ 的计算都有关：
$net^j_{1,1}=w_{1,1}a^{l-1}_{1,1}+w_{1,2}a^{l-1}_{1,2}+w_{2,1}a^{l-1}_{2,1}+w_{2,2}a^{l-1}_{2,2}+w_b\\ net^j_{1,2}=w_{1,1}a^{l-1}_{1,2}+w_{1,2}a^{l-1}_{1,3}+w_{2,1}a^{l-1}_{2,2}+w_{2,2}a^{l-1}_{2,3}+w_b\\$
因此：
$\frac{\partial{E_d}}{\partial{a^{l-1}_{1,2}}}=\frac{\partial{E_d}}{\partial{net^{l}_{1,1}}}\frac{\partial{net^{l}_{1,1}}}{\partial{a^{l-1}_{1,2}}}+\frac{\partial{E_d}}{\partial{net^{l}_{1,2}}}\frac{\partial{net^{l}_{1,2}}}{\partial{a^{l-1}_{1,2}}}=\delta^l_{1,1}w_{1,2}+\delta^l_{1,2}w_{1,1}$
例3，计算 $\frac{\partial{E_d}}{\partial{a^{l-1}_{2,2}}}$ ， $a^{l-1}_{2,2}$ 与 $net^l_{1,1}$ ， $net^l_{1,2}$ ， $net^l_{2,1}$ 和 $net^l_{2,2}$ 的计算都有关：
$net^j_{1,1}=w_{1,1}a^{l-1}_{1,1}+w_{1,2}a^{l-1}_{1,2}+w_{2,1}a^{l-1}_{2,1}+w_{2,2}a^{l-1}_{2,2}+w_b\\ net^j_{1,2}=w_{1,1}a^{l-1}_{1,2}+w_{1,2}a^{l-1}_{1,3}+w_{2,1}a^{l-1}_{2,2}+w_{2,2}a^{l-1}_{2,3}+w_b\\ net^j_{2,1}=w_{1,1}a^{l-1}_{2,1}+w_{1,2}a^{l-1}_{2,2}+w_{2,1}a^{l-1}_{3,1}+w_{2,2}a^{l-1}_{3,2}+w_b\\ net^j_{2,2}=w_{1,1}a^{l-1}_{2,2}+w_{1,2}a^{l-1}_{2,3}+w_{2,1}a^{l-1}_{3,2}+w_{2,2}a^{l-1}_{3,3}+w_b$
因此：
$\frac{\partial{E_d}}{\partial{a^{l-1}_{2,2}}}=\frac{\partial{E_d}}{\partial{net^{l}_{1,1}}}\frac{\partial{net^{l}_{1,1}}}{\partial{a^{l-1}_{2,2}}}+\frac{\partial{E_d}}{\partial{net^{l}_{1,2}}}\frac{\partial{net^{l}_{1,2}}}{\partial{a^{l-1}_{2,2}}}+\frac{\partial{E_d}}{\partial{net^{l}_{2,1}}}\frac{\partial{net^{l}_{2,1}}}{\partial{a^{l-1}_{2,2}}}+\frac{\partial{E_d}}{\partial{net^{l}_{2,2}}}\frac{\partial{net^{l}_{2,2}}}{\partial{a^{l-1}_{2,2}}}=\delta^l_{1,1}w_{2,2}+\delta^l_{1,2}w_{2,1}+\delta^l_{2,1}w_{1,2}+\delta^l_{2,2}w_{1,1}$

从上面三个例子，我们发挥一下想象力，不难发现，计算 $\frac{\partial{E_d}}{\partial{a^{l-1}}}$ ，相当于把第 $l$ 层的sensitive map周围补一圈0，在与180度翻转后的filter进行cross-correlation，就能得到想要结果，如下图所示：
这里写图片描述

因为卷积相当于将filter旋转180度的cross-correlation，因此上图的计算可以用卷积公式完美的表达：

Mestarxh

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
深度学习 CNN 数学推导

什么是卷积神经网络首先，我们先获取一个感性认识，下图是一个卷积神经网络的示意图：网络架构如图所示，一个卷积神经网络由若干卷积层、Pooling层、全连接层组成。你可以构建各种不同的卷积神经网络，它的常用架构模式为： INPUT -&amp;amp;amp;gt; [[CONV]*N -&amp;amp;amp;gt; POOL?]*M -&amp;amp;amp;gt; [FC]*K也就是NNN个卷积层叠加，然后(可选)叠加一个Poo...
复制链接

扫一扫

专栏目录