卷积神经网络的训练

最新推荐文章于 2024-09-10 21:39:58 发布

Duckie-duckie

最新推荐文章于 2024-09-10 21:39:58 发布

阅读量1.9w

点赞数 3

分类专栏：机器学习文章标签：深度学习机器学习神经网络算法数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zb123455445/article/details/78174116

版权

卷积神经网络的训练比全连接网络复杂，主要涉及卷积层和Pooling层。误差项传递和权重梯度计算是训练关键，包括卷积层的误差项传递、filter权重梯度计算，以及Pooling层的误差项传递。卷积层误差项传递考虑了步长、输入深度和filter数量，而Pooling层没有学习参数，只需传递误差项。

摘要由CSDN通过智能技术生成

卷积神经网络的训练

和全连接神经网络相比，卷积神经网络的训练要复杂一些。但训练的原理是一样的：利用链式求导计算损失函数对每个权重的偏导数（梯度），然后根据梯度下降公式更新权重。训练算法依然是反向传播算法。

我们先回忆一下上一篇文章零基础入门深度学习(3) - 神经网络和反向传播算法介绍的反向传播算法，整个算法分为三个步骤：

前向计算每个神经元的输出值 aj （ j 表示网络的第 j 个神经元，以下同）；
反向计算每个神经元的误差项 δj ， δj 在有的文献中也叫做敏感度(sensitivity)。它实际上是网络的损失函数 Ed 对神经元加权输入 netj 的偏导数，即 δj=∂Ed∂netj ；
计算每个神经元连接权重 wji 的梯度（ wji 表示从神经元 i 连接到神经元 j 的权重），公式为 ∂Ed∂wji=aiδj ，其中， ai 表示神经元 i 的输出。

最后，根据梯度下降法则更新每个权重即可。

对于卷积神经网络，由于涉及到局部连接、下采样的等操作，影响到了第二步误差项 δ 的具体计算方法，而权值共享影响了第三步权重 w 的梯度的计算方法。接下来，我们分别介绍卷积层和Pooling层的训练算法。

卷积层的训练

对于卷积层，我们先来看看上面的第二步，即如何将误差项 δ 传递到上一层；然后再来看看第三步，即如何计算filter每个权值 w 的梯度。

卷积层误差项的传递

最简单情况下误差项的传递

我们先来考虑步长为1、输入的深度为1、filter个数为1的最简单的情况。

假设输入的大小为3*3，filter大小为2*2，按步长为1卷积，我们将得到2*2的feature map。如下图所示：

在上图中，为了描述方便，我们为每个元素都进行了编号。用 δl−1i,j 表示第 l−1 层第 j 行第 j 列的误差项；用 wm,n 表示filter第 m 行第 n 列权重，用 wb 表示filter的偏置项；用 al−1i,j 表示第 l−1 层第 i 行第 j 列神经元的输出；用 netl−1i,j 表示第 l−1 行神经元的加权输入；用 δli,j 表示第 l 层第 j 行第 j 列的误差项；用 fl−1 表示第 l−1 层的激活函数。它们之间的关系如下：

n e t l a l - 1 i, j = c o n v (W l, a l - 1) + w b = f l - 1 (n e t l - 1 i, j) (17) (18)

上式中， netl 、 Wl 、 al−1 都是数组， Wl 是由 wm,n 组成的数组， conv 表示卷积操作。

在这里，我们假设第 l 中的每个 δl 值都已经算好，我们要做的是计算第 l−1 层每个神经元的误差项 δl−1 。

根据链式求导法则：

δ l - 1 i, j = \partial E d \partial n e t l - 1 i , j = \partial E d \partial a l - 1 i , j \partial a l - 1 i , j \partial n e t l - 1 i , j (19) (20)

我们先求第一项 ∂Ed∂al−1i,j 。我们先来看几个特例，然后从中总结出一般性的规律。

例1，计算 ∂Ed∂al−11,1 ， al−11,1 仅与 netl1,1 的计算有关：

n e t j 1, 1 = w 1, 1 a l - 1 1, 1 + w 1, 2 a l - 1 1, 2 + w 2, 1 a l - 1 2, 1 + w 2, 2 a l - 1 2, 2 + w b

因此：

\partial E d \partial a l - 1 1 , 1 = \partial E d \partial n e t l 1 , 1 \partial n e t l 1 , 1 \partial a l - 1 1 , 1 = δ l 1, 1 w 1, 1 (21) (22)

例2，计算 ∂Ed∂al−11,2 ， al−11,2 与 netl1,1 和 netl1,2 的计算都有关：

n e t j 1, 1 = w 1, 1 a l - 1 1, 1 + w 1, 2 a l - 1 1, 2 + w 2, 1 a l - 1 2, 1 + w 2, 2 a l - 1 2, 2 + w b n e t j 1, 2 = w 1, 1 a l - 1 1, 2 + w 1, 2 a l - 1 1, 3 + w 2, 1 a l - 1 2, 2 + w 2, 2 a l - 1 2, 3 + w b

因此：

\partial E d \partial a l - 1 1 , 2 = \partial E d \partial n e t l 1 , 1 \partial n e

最低0.47元/天解锁文章

关注

3
点赞
踩
43

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。