神经网络和反向传播算法

最新推荐文章于 2024-08-05 11:15:19 发布

Duckie-duckie

最新推荐文章于 2024-08-05 11:15:19 发布

阅读量8.2k

点赞数

分类专栏：机器学习文章标签：机器学习数据算法神经网络深度学习

本文链接：https://blog.csdn.net/zb123455445/article/details/78174001

版权

机器学习专栏收录该内容

63 篇文章 4 订阅

订阅专栏

神经元

神经元和感知器本质上是一样的，只不过我们说感知器的时候，它的激活函数是阶跃函数；而当我们说神经元时，激活函数往往选择为sigmoid函数或tanh函数。如下图所示：

计算一个神经元的输出的方法和计算一个感知器的输出是一样的。假设神经元的输入是向量 x⃗ ，权重向量是 w⃗ (偏置项是 w0 )，激活函数是sigmoid函数，则其输出 y ：

y = s i g m o i d (w ⃗ T \cdot x ⃗) (式 1)

sigmoid函数的定义如下：

s i g m o i d (x) = 1 1 + e - x

将其带入前面的式子，得到

y = 1 1 + e - w ⃗ T \cdot x ⃗

sigmoid函数是一个非线性函数，值域是(0,1)。函数图像如下图所示

sigmoid函数的导数是：

令 y = s i g m o i d (x) 则 y' = y (1 - y) (1) (2)

可以看到，sigmoid函数的导数非常有趣，它可以用sigmoid函数自身来表示。这样，一旦计算出sigmoid函数的值，计算它的导数的值就非常方便。

神经网络是啥

神经网络其实就是按照一定规则连接起来的多个神经元。上图展示了一个全连接(full connected, FC)神经网络，通过观察上面的图，我们可以发现它的规则包括：

神经元按照层来布局。最左边的层叫做输入层，负责接收输入数据；最右边的层叫输出层，我们可以从这层获取神经网络输出数据。输入层和输出层之间的层叫做隐藏层，因为它们对于外部来说是不可见的。
同一层的神经元之间没有连接。
第N层的每个神经元和第N-1层的所有神经元相连(这就是full connected的含义)，第N-1层神经元的输出就是第N层神经元的输入。
每个连接都有一个权值。

上面这些规则定义了全连接神经网络的结构。事实上还存在很多其它结构的神经网络，比如卷积神经网络(CNN)、循环神经网络(RNN)，他们都具有不同的连接规则。

计算神经网络的输出

神经网络实际上就是一个输入向量 x⃗ 到输出向量 y⃗ 的函数，即：

y ⃗ = f n e t w o r k (x ⃗)

根据输入计算神经网络的输出，需要首先将输入向量 x⃗ 的每个元素 xi 的值赋给神经网络的输入层的对应神经元，然后根据式1依次向前计算每一层的每个神经元的值，直到最后一层输出层的所有神经元的值计算完毕。最后，将输出层每个神经元的值串在一起就得到了输出向量 y⃗ 。

接下来举一个例子来说明这个过程，我们先给神经网络的每个单元写上编号。

如上图，输入层有三个节点，我们将其依次编号为1、2、3；隐藏层的4个节点，编号依次为4、5、6、7；最后输出层的两个节点编号为8、9。因为我们这个神经网络是全连接网络，所以可以看到每个节点都和上一层的所有节点有连接。比如，我们可以看到隐藏层的节点4，它和输入层的三个节点1、2、3之间都有连接，其连接上的权重分别为 w41,w42,w43 。那么，我们怎样计算节点4的输出值 a4 呢？

为了计算节点4的输出值，我们必须先得到其所有上游节点（也就是节点1、2、3）的输出值。节点1、2、3是输入层的节点，所以，他们的输出值就是输入向量 x⃗ 本身。按照上图画出的对应关系，可以看到节点1、2、3的输出值分别是 x1,x2,x3 。我们要求输入向量的维度和输入层神经元个数相同，而输入向量的某个元素对应到哪个输入节点是可以自由决定的，你偏非要把 x1 赋值给节点2也是完全没有问题的，但这样除了把自己弄晕之外，并没有什么价值。

一旦我们有了节点1、2、3的输出值，我们就可以根据式1计算节点4的输出值 a4 ：

a 4 = s i g m o i d (w ⃗ T \cdot x ⃗) = s i g m o i d (w 41 x 1 + w 42 x 2 + w 43 x 3 + w 4 b) (3) (4)

上式的 w4b 是节点4的偏置项，图中没有画出来。而 w41,w42,w43 分别为节点1、2、3到节点4连接的权重，在给权重 wji 编号时，我们把目标节点的编号 j 放在前面，把源节点的编号 i 放在后面。

同样，我们可以继续计算出节点5、6、7的输出值 a5,a6,a7 。这样，隐藏层的4个节点的输出值就计算完成了，我们就可以接着计算输出层的节点8的输出值 y1 ：

y 1 = s i g m o i d (w ⃗ T \cdot x ⃗) = s i g m o i d (w 84 a 4 + w 85 a 5 + w 86 a 6 + w 87 a 7 + w 8 b) (5) (6)

同理，我们还可以计算出 y2 的值。这样输出层所有节点的输出值计算完毕，我们就得到了在输入向量 x⃗ =⎡⎣x1x2x3⎤⎦ 时，神经网络的输出向量 y⃗ =[y1y2] 。这里我们也看到，输出向量的维度和输出层神经元个数相同。

神经网络的矩阵表示

神经网络的计算如果用矩阵来表示会很方便（当然逼格也更高），我们先来看看隐藏层的矩阵表示。

首先我们把隐藏层4个节点的计算依次排列出来：

a 4 = s i g m o i d (w 41 x 1 + w 42 x 2 + w 43 x 3 + w 4 b) a 5 = s i g m o i d (w 51 x 1 + w 52 x 2 + w 53 x 3 + w 5 b) a 6 = s i g m o i d (w 61 x 1 + w 62 x 2 + w 63 x 3 + w 6 b) a 7 = s i g m o i d (w 71 x 1 + w 72 x 2 + w 73 x 3 + w 7 b)

接着，定义网络的输入向量 x⃗ 和隐藏层每个节点的权重向量 wj→ 。令

x ⃗ w ⃗ 4 w ⃗ 5 w ⃗ 6 w ⃗ 7 f = ⎡ ⎣ ⎢ ⎢ x 1 x 2 x 3 1 ⎤ ⎦ ⎥ ⎥ = [w 41, w 42, w 43, w 4 b] = [w 51, w 52, w 53, w 5 b] = [w 61, w 62, w 63, w 6 b] = [w 71, w 72, w 73, w 7 b] = s i g m o i d (7) (8) (9) (10) (11) (12)

代入到前面的一组式子，得到：

a 4 a 5 a 6 a 7 = f (w 4 \to \cdot x ⃗) = f (w 5 \to \cdot x ⃗) = f (w 6 \to \cdot x ⃗) = f (w 7 \to \cdot x ⃗) (13) (14) (15) (16)

现在，我们把上述计算 a4,a5,a6,a7 的四个式子写到一个矩阵里面，每个式子作为矩阵的一行，就可以利用矩阵来表示它们的计算了。令

a ⃗ = ⎡ ⎣ ⎢ ⎢ a 4 a 5 a 6 a 7 ⎤ ⎦ ⎥ ⎥, W = ⎡ ⎣ ⎢ ⎢ ⎢ w ⃗ 4 w ⃗ 5 w ⃗ 6 w ⃗ 7 ⎤ ⎦ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ w 41, w 42, w 43, w 4 b w 51, w 52, w 53, w 5 b w 61, w 62, w 63, w 6 b w 71, w 72, w 73, w 7 b ⎤ ⎦ ⎥ ⎥, f (⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 1 x 2 x 3 . . . ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ f (x 1) f (x 2) f (x 3) . . . ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

带入前面的一组式子，得到

a ⃗ = f (W \cdot x ⃗) (式 2)

在式2中， f 是激活函数，在本例中是 sigmoid 函数； W 是某一层的权重矩阵； x⃗ 是某层的输入向量； a⃗ 是某层的输出向量。式2说明神经网络的每一层的作用实际上就是先将输入向量左乘一个数组进行线性变换，得到一个新的向量，然后再对这个向量逐元素应用一个激活函数。

每一层的算法都是一样的。比如，对于包含一个输入层，一个输出层和三个隐藏层的神经网络，我们假设其权重矩阵分别为 W1,W2,W3,W4 ，每个隐藏层的输出分别是 a⃗ 1,a⃗ 2,a⃗ 3 ，神经网络的输入为 x⃗ ，神经网络的输入为 y⃗ ，如下图所示：

则每一层的输出向量的计算可以表示为：

a ⃗ 1 = f (W 1 \cdot x ⃗) a ⃗ 2 = f (W 2 \cdot a ⃗ 1) a ⃗ 3 = f (W 3 \cdot a ⃗ 2) y ⃗ = f (W 4 \cdot a ⃗ 3) (17) (18) (19) (20)

这就是神经网络输出值的计算方法。

神经网络的训练

现在，我们需要知道一个神经网络的每个连接上的权值是如何得到的。我们可以说神经网络是一个模型，那么这些权值就是模型的参数，也就是模型要学习的东西。然而，一个神经网络的连接方式、网络的层数、每层的节点数这些参数，则不是学习出来的，而是人为事先设置的。对于这些人为设置的参数，我们称之为超参数(Hyper-Parameters)。

接下来，我们将要介绍神经网络的训练算法：反向传播算法。

反向传播算法(Back Propagation)

我们首先直观的介绍反向传播算法，最后再来介绍这个算法的推导。当然读者也可以完全跳过推导部分，因为即使不知道如何推导，也不影响你写出来一个神经网络的训练代码。事实上，现在神经网络成熟的开源实现多如牛毛，除了练手之外，你可能都没有机会需要去写一个神经网络。

我们以监督学习为例来解释反向传播算法。在零基础入门深度学习(2) - 线性单元和梯度下降一文中我们介绍了什么是监督学习，如果忘记了可以再看一下。另外，我们设神经元的激活函数 f 为 sigmoid 函数(不同激活函数的计算公式不同，详情见反向传播算法的推导一节)。

我们假设每个训练样本为 (x⃗ ,t⃗ ) ，其中向量 x⃗ 是训练样本的特征，而 t⃗ 是样本的目标值。

首先，我们根据上一节介绍的算法，用样本的特征 x⃗ ，计算出神经网络中每个隐藏层节点的输出 ai ，以及输出层每个节点的输出 yi 。

然后，我们按照下面的方法计算出每个节点的误差项 δi ：

对于输出层节点 i ，

δ i = y i (1 - y i) (t i - y i) (式 3)

其中， δi 是节点 i 的误差项， yi 是节点 i 的输出值， ti 是样本对应于节点 i 的目标值。举个例子，根据上图，对于输出层节点8来说，它的输出值是 y1 ，而样本的目标值是 t1 ，带入上面的公式得到节点8的误差项 δ8 应该是：

δ 8 = y 1 (1 - y 1) (t 1 - y 1)

对于隐藏层节点，

δ i = a i (1 - a i) \sum k \in o u t p u t s w k i δ k (式 4)

其中， ai 是节点 i 的输出值， wki 是节点 i 到它的下一层节点 k 的连接的权重， δk 是节点 i 的下一层节点 k 的误差项。例如，对于隐藏层节点4来说，计算方法如下：

δ 4 = a 4 (1 - a 4) (w 84 δ 8 + w 94 δ 9)

最后，更新每个连接上的权值：

w j i \leftarrow w j i + η δ j x j i (式 5)

其中， wji 是节点 i 到节点 j 的权重， η 是一个成为学习速率的常数， δj 是节点 j 的误差项， xji 是节点 i 传递给节点 j 的输入。例如，权重 w84 的更新方法如下：

w 84 \leftarrow w 84 + η δ 8 a 4

类似的，权重 w41 的更新方法如下：

w 41 \leftarrow w 41 + η δ 4 x 1

偏置项的输入值永远为1。例如，节点4的偏置项 w4b 应该按照下面的方法计算：

w 4 b \leftarrow w 4 b + η δ 4

我们已经介绍了神经网络每个节点误差项的计算和权重更新方法。显然，计算一个节点的误差项，需要先计算每个与其相连的下一层节点的误差项。这就要求误差项的计算顺序必须是从输出层开始，然后反向依次计算每个隐藏层的误差项，直到与输入层相连的那个隐藏层。这就是反向传播算法的名字的含义。当所有节点的误差项计算完毕后，我们就可以根据式5来更新所有的权重。

以上就是基本的反向传播算法，并不是很复杂，您弄清楚了么？

反向传播算法的推导

反向传播算法其实就是链式求导法则的应用。然而，这个如此简单且显而易见的方法，却是在Roseblatt提出感知器算法将近30年之后才被发明和普及的。对此，Bengio这样回应道：

很多看似显而易见的想法只有在事后才变得显而易见。

接下来，我们用链式求导法则来推导反向传播算法，也就是上一小节的式3、式4、式5。

前方高能预警——接下来是数学公式重灾区，读者可以酌情阅读，不必强求。

按照机器学习的通用套路，我们先确定神经网络的目标函数，然后用随机梯度下降优化算法去求目标函数最小值时的参数值。

我们取网络所有输出层节点的误差平方和作为目标函数：

E d \equiv 1 2 \sum i \in o u t p u t s (t i - y i) 2

其中， Ed 表示是样本 d 的误差。

然后，我们用文章零基础入门深度学习(2) - 线性单元和梯度下降中介绍的随机梯度下降算法对目标函数进行优化：

w j i \leftarrow w j i - η \partial E d \partial w j i

随机梯度下降算法也就是需要求出误差 Ed 对于每个权重 wji 的偏导数（也就是梯度），怎么求呢？

观察上图，我们发现权重 wji 仅能通过影响节点 j 的输入值影响网络的其它部分，设 netj 是节点 j 的加权输入，即

n e t j = w j \to \cdot x j \to = \sum i w j i x j i (21) (22)

Ed 是 netj 的函数，而 netj 是 wji 的函数。根据链式求导法则，可以得到：

\partial E d \partial w j i = \partial E d \partial n e t j \partial n e t j \partial w j i = \partial E d \partial n e t j \partial \sum i w j i x j i \partial w j i = \partial E d \partial n e t j x j i (23) (24) (25)

上式中，

xji 是节点

i 传递给节点

j 的输入值，也就是节点

i 的输出值。

对于 ∂Ed∂netj 的推导，需要区分输出层和隐藏层两种情况。

输出层权值训练

对于输出层来说， netj 仅能通过节点 j 的输出值 yj 来影响网络其它部分，也就是说 Ed 是 yj 的函数，而 yj 是 netj 的函数，其中 yj=sigmoid(netj) 。所以我们可以再次使用链式求导法则：

\partial E d \partial n e t j = \partial E d \partial y j \partial y j \partial n e t j (26)

考虑上式第一项:

\partial E d \partial y j = \partial \partial y j 1 2 \sum i \in o u t p u t s (t i - y i) 2 = \partial \partial y j 1 2 (t j - y j) 2 = - (t j - y j) (27) (28) (29)

考虑上式第二项：

\partial y j \partial n e t j = \partial s i g m o i d ( n e t j ) \partial n e t j = y j (1 - y j) (30) (31)

将第一项和第二项带入，得到：

\partial E d \partial n e t j = - (t j - y j) y j (1 - y j)

如果令 δj=−∂Ed∂netj ，也就是一个节点的误差项 δ 是网络误差对这个节点输入的偏导数的相反数。带入上式，得到：

δ j = (t j - y j) y j (1 - y j)

上式就是式3。

将上述推导带入随机梯度下降公式，得到：

w j i \leftarrow w j i - η \partial E d \partial w j i = w j i + η (t j - y j) y j (1 - y j) x j i = w j i + η δ j x j i (32) (33) (34)

上式就是式5。

隐藏层权值训练

现在我们要推导出隐藏层的 ∂Ed∂netj 。

首先，我们需要定义节点 j 的所有直接下游节点的集合 Downstream(j) 。例如，对于节点4来说，它的直接下游节点是节点8、节点9。可以看到 netj 只能通过影响 Downstream(j) 再影响 Ed 。设 netk 是节点 j 的下游节点的输入，则 Ed 是 netk 的函数，而 netk 是 netj 的函数。因为 netk 有多个，我们应用全导数公式，可以做出如下推导：

\partial E d \partial n e t j = \sum k \in D o w n s t r e a m (j) \partial E d \partial n e t k \partial n e t k \partial n e t j = \sum k \in D o w n s t r e a m (j) - δ k \partial n e t k \partial n e t j = \sum k \in D o w n s t r e a m (j) - δ k \partial n e t k \partial a j \partial a j \partial n e t j = \sum k \in D o w n s t r e a m (j) - δ k w k j \partial a j \partial n e t j = \sum k \in D o w n s t r e a m (j) - δ k w k j a j (1 - a j) = - a j (1 - a j) \sum k \in D o w n s t r e a m (j) δ k w k j (35) (36) (37) (38) (39) (40)

因为 δj=−∂Ed∂netj ，带入上式得到：

δ j = a j (1 - a j) \sum k \in D o w n s t r e a m (j) δ k w k j

上式就是式4。

——数学公式警报解除——

至此，我们已经推导出了反向传播算法。需要注意的是，我们刚刚推导出的训练规则是根据激活函数是sigmoid函数、平方和误差、全连接网络、随机梯度下降优化算法。如果激活函数不同、误差计算方式不同、网络连接结构不同、优化算法不同，则具体的训练规则也会不一样。但是无论怎样，训练规则的推导方式都是一样的，应用链式求导法则进行推导即可。