浙江大学《机器学习》笔记——神经网络(Neural Network)【上】

啵啵啵啵哲

已于 2022-04-10 09:33:00 修改

阅读量1k

点赞数 4

分类专栏：机器学习笔记文章标签：神经网络机器学习人工智能

于 2021-10-11 13:41:56 首次发布

本文链接：https://blog.csdn.net/xuzhengzhe/article/details/120701200

版权

机器学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

写在前面
· 最近在学习《机器学习》. 主要是看浙江大学胡浩基老师的网课，结合周志华老师的西瓜书来学. 为了理清思路和推公式就敲了这样一个读书笔记. 初次学习难免会有错漏，欢迎批评指正. 这份笔记主要用途还是用来自己复习回顾. 当然如果对大家有帮助那就更好了hhh
· 注：神经网络这部分的笔记大部分是基于浙大《机器学习》的逻辑进行整理的.

第5章神经网络(Neural Network)

· 神经网络的诞生是集体的智慧
· 近年发展迅速，是目前机器学习领域最火的方向.
· 上世纪50-60年代即奠定理论基础.
· 大数据+算力迅速提升，神经网络层数得以提升，性能更好.

接下来以人工神经网络发展历程为线索进行介绍.

一、人工神经网络的提出

1. 神经元的数学模型

1943年，心理学家W.S.McCulloch和数理逻辑学家W.Pitts基于神经元的生理特征，建立了单个神经元的数学模型（ $\text{M-P}$ 模型)
在这里插入图片描述

$y_k=\varphi \left( \sum_{i=1}^m{\omega _{ki}x_i+b_k} \right) =\varphi \left( W_{k}^{\mathrm{T}}X+b \right)$
在这里插入图片描述

2. 感知机算法(Perceptron Algorithm)

1957年，Frank Rosenblatt从纯数学的度重新考察这一模型，指岀能够从一些输入输出对 $(X, y)$ 中通过学习算法获得权重 $W$ 和 $b$ .

（1）感知机算法要解决的问题

给定一些输入输出对 $(X, y)$ ，其中 $y = \pm 1$ ，求一个函数，使 $f (X) = y$ .

设定 $f(X)=\mathrm{sign}(W^{\mathrm{T}}X+b)$ ，从一堆输入输出中自动学习，获得 $W$ 和 $b$ .

（2）算法流程

输入 $(X_i,y_i)(i=1,2,\cdots,n)$
（1）随机选择 $W$ 和 $b$ .
（2）取一个训练样本 $X_i,y_i)$
（i）若 $W^{\mathrm{T}}X_i+b>0$ 且 $y_i=-1$ ，则 $W : = W - X, b : = b - 1$ ;
（ii）若 $W^{\mathrm{T}}X_i+b<0$ 且 $y_i=+1$ ，则 $W : = W + X, b : = b + 1$ .
（3）再取另一个 $(X, y)$ 回到（2）.
（4）终止条件：直到所有输入输岀对都不满足（2）中（i）和（ii）之一，退出循环.

与 $\text{SVM}$ 的本质区别： $\text{SVM}$ 以全局的眼光来看训练样本，而感知机算法则着眼单独的个体，在循环中不断调整参数.

（3）感知机的收敛性（Novikoff定理）

在不断的调整中，是否会出现参数不停震荡而不收敛于某一个值的情况？

Rosenblatt给出了参数能够收敛的证明. 在证明之前，先做一些准备工作.

定义一个增广向量 $\overrightarrow{X}$ ，使得
$\begin{cases} \text{若}y=+1,\text{则}\overrightarrow{X}=\left[ \begin{array}{c} X\\ 1\\ \end{array} \right]\\\\ \text{若}y=-1,\text{则}\overrightarrow{X}=\left[ \begin{array}{c} -X\\ -1\\ \end{array} \right]\\ \end{cases}$ 定义增广 $\overrightarrow{W}$ 如下：
$\overrightarrow{W}=\left[ \begin{array}{c} W\\ b\\ \end{array} \right]$
则算法可改写为：
输入 $\overrightarrow{X}_i(i=1,2,\cdots,n)$
（1）随机选择 $\overrightarrow{W}$ .
（2）取一个训练样本 $\overrightarrow{X}_i$ . 若 $\overrightarrow{W}^{\mathrm{T}}\overrightarrow{X}_i<0$ ，则 $\overrightarrow{W}:=\overrightarrow{W}+\overrightarrow{X}_i$ .
（3）再取另一个 $\overrightarrow{X}_i$ 回到（2）.
（4）终止条件：直到所有输入输岀对都不满足.（2）中（i）和（ii）之一，退出循环.

感知机算法收敛定理可表述为：
输入 $\left\{ \overrightarrow{X}_i \right\} _{i=1,\cdots ,N}$ ，若线性可分，即
$\exists \overrightarrow{W}_{\mathrm{opt}},\ \mathrm{s}.\mathrm{t}.\ \overrightarrow{W}_{\mathrm{opt}}\overrightarrow{X_i}>0\left( i=1,2,\cdots ,N \right)$ 则利用上述感知机算法，经过有限步后得到一个 $\overrightarrow{W}$ ，使得
$\overrightarrow{W}^{\mathrm{T}}\overrightarrow{X}_i>0\left( i=1,2,\cdots ,N \right) .$

下面给出证明.
证明：
不失一般性，设 $\left\| \overrightarrow{W}_{\mathrm{opt}} \right\| =1$ .
假设第 $k$ 步所得的 $\overrightarrow{W}$ 是 $\overrightarrow{W}\left( k \right)$ ，且有一个 $\overrightarrow{X_i}$ ，使得
$\overrightarrow{W}^T\left( k \right) \overrightarrow{X_i}<0$ 根据感知机算法，有
$\overrightarrow{W}\left( k+1 \right) =\overrightarrow{W}\left( k \right) +\overrightarrow{X_i} \\\\ \overrightarrow{W}\left( k+1 \right) -a\overrightarrow{W}_{\mathrm{opt}}=\overrightarrow{W}\left( k \right) +\overrightarrow{X_i}-a\overrightarrow{W}_{\mathrm{opt}}$
取模的平方
$\left\| \overrightarrow{W}\left( k+1 \right) -a\overrightarrow{W}_{\mathrm{opt}} \right\| ^2=\left\| \overrightarrow{W}\left( k \right) +\overrightarrow{X_i}-a\overrightarrow{W}_{\mathrm{opt}} \right\| ^2$ $\begin{aligned} \left\| \overrightarrow{W}\left( k+1 \right) -a\overrightarrow{W}_{\mathrm{opt}} \right\| ^2&=\left\| \overrightarrow{W}\left( k \right) +\overrightarrow{X_i}-a\overrightarrow{W}_{\mathrm{opt}} \right\| ^2 \\ &=\left\| \left( \overrightarrow{W}\left( k \right) -a\overrightarrow{W}_{\mathrm{opt}} \right) +\overrightarrow{X_i} \right\| ^2 \\ &=\left\| \overrightarrow{W}\left( k \right) -a\overrightarrow{W}_{\mathrm{opt}} \right\| ^2+\left\| \overrightarrow{X_i} \right\| ^2+2\overrightarrow{W}^{\mathrm{T}}\left( k \right) \overrightarrow{X_i}-2a\overrightarrow{W}_{\mathrm{opt}}^{\mathrm{T}}\overrightarrow{X_i} \end{aligned}$ 注意到最后两项
$\overrightarrow{W}^{\mathrm{T}}\left( k \right) \overrightarrow{X_i}<0, \overrightarrow{W}_{\mathrm{opt}}^{\mathrm{T}}\overrightarrow{X_i}>0$ 一定可以找到足够大的 $a$ ，使得
$\left\| \overrightarrow{X_i} \right\| ^2+2\overrightarrow{W}^{\mathrm{T}}\left( k \right) \overrightarrow{X_i}-2a\overrightarrow{W}_{\mathrm{opt}}^{\mathrm{T}}\overrightarrow{X_i}<0$ 进而
$\left\| \overrightarrow{W}\left( k+1 \right) -a\overrightarrow{W}_{\mathrm{opt}} \right\| ^2<\left\| \overrightarrow{W}\left( k \right) -a\overrightarrow{W}_{\mathrm{opt}} \right\| ^2$
定义
$\beta =\underset{i=1,...,N}{\max}\left\| \overrightarrow{X_i} \right\| , \gamma =\underset{i=1,...,N}{\min}\overrightarrow{W}_{\mathrm{opt}}\overrightarrow{X_i}$ 取
$a=\frac{\beta ^2+1}{2\gamma}$ 则
$\left\| \overrightarrow{W}\left( k+1 \right) -a\overrightarrow{W}_{\mathrm{opt}} \right\| ^2<\left\| \overrightarrow{W}\left( k \right) -a\overrightarrow{W}_{\mathrm{opt}} \right\| ^2-1.$
取 $D=\left\| \overrightarrow{W}\left( 0 \right) -a\overrightarrow{W}_{\mathrm{opt}} \right\|$ ，则至多经过 $D^2$ 步， $\overrightarrow{W}$ 将会收敛于 $a\overrightarrow{W}_{\mathrm{opt}}.\quad \Box$

补充说明： $D$ 为有限大的证明.
$\begin{aligned} D^2&=\left\| \overrightarrow{W}\left( 0 \right) -a\overrightarrow{W}_{\mathrm{opt}} \right\| ^2 \\ &=\left\| \overrightarrow{W}\left( 0 \right) \right\| ^2+a^2\left\| \overrightarrow{W}_{\mathrm{opt}} \right\| ^2-2a\overrightarrow{W}^{\mathrm{T}}\left( 0 \right) \overrightarrow{W}_{\mathrm{opt}} \\ &=\left\| \overrightarrow{W}\left( 0 \right) \right\| ^2+a^2\left\| \overrightarrow{W}_{\mathrm{opt}} \right\| ^2-2a\left\| \overrightarrow{W}\left( 0 \right) \right\| \left\| \overrightarrow{W}_{\mathrm{opt}} \right\| \cos \theta \\ &\leqslant \left\| \overrightarrow{W}\left( 0 \right) \right\| ^2+a^2+2a\left\| \overrightarrow{W}\left( 0 \right) \right\| \end{aligned}$

二、人工智能的第一次寒冬

1. 线性可分概念的提出

Minsky创造了线性可分（不可分）的概念（1969《Perceptron》）. 书中提及日常生活中很多事物是非线性可分的.

例子：识别一个二值图是否全连通（下图例子中， $\text{class 1}$ 为全连通， $\text{class 2}$ 不是全连通）.

人们认为既然大多事物非线性可分，而感知机只能解决线性可分的问题，用途较为狭隘，研究它的实际意义不大，导致人工智能发展进入了停滞时期.

三、多层神经网络（Multiple Layer Neural Networks）

想法：使用非线性模型来划分非线性的样本.

在这里插入图片描述

这样一个神经网络包含两层. 其中 $\varphi(\cdot)$ 是一个非线性函数.

1. $\varphi(\cdot)$ 的作用

若没有 $\varphi(\cdot)$ ，会导致输出与输入仍呈线性关系. 具体计算如下：
$\begin{cases} a_1=w_{11}x_1+w_{12}x_2+b_1\\ a_2=w_{21}x_1+w_{22}x_2+b_2\\ z_1=\varphi \left( a_1 \right)\\ z_2=\varphi \left( a_2 \right)\\ y=w_1z_1+w_2z_2+b\\ \end{cases}\Rightarrow y=w_1\varphi \left( w_{11}x_1+w_{12}x_2+b_1 \right) +w_2\varphi \left( w_{21}x_1+w_{22}x_2+b_2 \right)$ 如果没有 $\varphi(\cdot)$ ，显然 $y$ 是关于 $x_1,x_2$ 的线性函数. 虽学习的参数多了，但与单层的神经网络的学习结果没有任何区别. $\varphi(\cdot)$ 叫作激活函数.

2.激活函数 $\varphi(\cdot)$ 的选取——阶跃函数.

原因：如果非线性函数用阶跃函数，那么三层神经网络可以模拟任意的非线性函数，说明如下.

【例1】 考虑平面上的三角形区域 $C_1$ 与其外部区域 $C_2$ . 规定直线划分平面包含 $C_1$ 的一侧，直线方程左侧 $> 0$ .
在这里插入图片描述

构建如下图所示的两层神经网络：
在这里插入图片描述

要使得输出 $y = 1$ （表示 $(x_1,x_1)\in C_1$ ），则需要 $w_1,w_2,w_3$ 全为 $1$ ，否则输出 $y = 0$ . 那么只需设置参数 $b = - 2.5$ 即可.

【例2】 若 $C_1$ 为四边形？
在这里插入图片描述

构建如下图所示的两层神经网络：
在这里插入图片描述

【例3】 若 $C_1$ 为圆形？
考虑用无数条数直线分割区域，那么将会有无穷多个神经元.

【例4】 若 $C_1$ 为不连通的图形？
在这里插入图片描述
构建如下图所示的三层神经网络：

接下来还需要解决两个问题：
① 如何只通过数据来获得神经网络的参数？
② 每一层神经元个数，神经网络的层数如何设计？
目前还没有完备的理论来回答这两个问题. 很多时候是依靠不断的实验与经验来解决.

四、后向传播（Back Propagation）算法

核心思想：梯度下降法求局部极值（Gradient Descent Method）.

1. 梯度下降法

$S t e p 1 :$ 找一个 $w_0$ .
$S t e p 2 :$ 设 $k = 0$ ，若
$\left. \frac{\mathrm{d}f\left( w \right)}{\mathrm{d}w} \right|_{w_k}=0,$ 则退出循环. 否则
$w_{k+1}=w_k-\alpha \left. \frac{\mathrm{d}f\left( w \right)}{\mathrm{d}w} \right|_{w_k}$ 重复 $S t e p 2$ .
其中 $\alpha>0$ ，称作步长或学习率，每步的步长可不同.

附：西瓜书P407对梯度下降法的介绍.

2. BP算法

（1）算法描述

输入 $\left\{ \left(X_i,Y_i \right) \right\} _{i=1,\cdots ,N}$ .
针对输入 $(X, Y)$ ，定义优化函数
$E=\frac{1}{2}\left( y-Y \right) ^2.$
$S t e p 1 :$ 随机取
$\left( \begin{matrix} w_{11}& w_{12}& w_{21}& w_{22}& b_1& b_2& w_1& w_2& b\\ \end{matrix} \right)$

$S t e p 2 :$ 对所有 $w$ ，求 $\frac{\partial E}{\partial w}$ ;
对所有 $b$ ，求 $\frac{\partial E}{\partial b}$ ;

$S t e p 3 :$ 计算
$\left\{ \begin{array}{c} w^{\left( \mathrm{new} \right)}:=w^{\left( \mathrm{old} \right)}-\alpha \left. \frac{\partial E}{\partial w} \right|_{w^{\left( \mathrm{old} \right)}}\\ b^{\left( \mathrm{new} \right)}:=b^{\left( \mathrm{old} \right)}-\alpha \left. \frac{\partial E}{\partial b} \right|_{b^{\left( \mathrm{old} \right)}}\\ \end{array} \right.$

$S t e p 4 :$ 当所有的
$\frac{\partial E}{\partial w}=\frac{\partial E}{\partial b}=0$ 时，退出循环.

（2）如何计算 $\frac{\partial E}{\partial w},\frac{\partial E}{\partial b}$ ？

$\begin{cases} a_1=w_{11}x_1+w_{12}x_2+b_1\\ a_2=w_{21}x_1+w_{22}x_2+b_2\\ z_1=\varphi \left( a_1 \right)\\ z_2=\varphi \left( a_2 \right)\\ y=w_1z_1+w_2z_2+b\\ \end{cases}$

首先计算 $\frac{\mathrm{d}E}{\mathrm{d}y}$ ，即
$\frac{\mathrm{d}E}{\mathrm{d}y}=y-Y.$ 然后计算
$\frac{\partial E}{\partial a_1}=\frac{\mathrm{d}E}{\mathrm{d}y}\cdot \frac{\partial y}{\partial z_1}\cdot \frac{\mathrm{d}z_1}{\mathrm{d}a_1}=\left( y-Y \right) w_1\varphi '\left( a_1 \right), \\ \\ \frac{\partial E}{\partial a_2}=\frac{\mathrm{d}E}{\mathrm{d}y}\cdot \frac{\partial y}{\partial z_2}\cdot \frac{\mathrm{d}z_2}{\mathrm{d}a_2}=\left( y-Y \right) w_2\varphi '\left( a_2 \right) .$ 其余偏导数
$\begin{cases} \frac{\partial E}{\partial b}=\frac{\mathrm{d}E}{\mathrm{d}y}\cdot \frac{\partial y}{\partial b}=y-Y\\ \frac{\partial E}{\partial w_1}=\frac{\mathrm{d}E}{\mathrm{d}y}\cdot \frac{\partial y}{\partial w_1}=\left( y-Y \right) z_1\\ \frac{\partial E}{\partial w_2}=\frac{\mathrm{d}E}{\mathrm{d}y}\cdot \frac{\partial y}{\partial w_2}=\left( y-Y \right) z_2\\ \frac{\partial E}{\partial w_{11}}=\frac{\mathrm{d}E}{\mathrm{d}a_1}\cdot \frac{\partial a_1}{\partial w_{11}}=\left( y-Y \right) w_1\varphi '\left( a_1 \right) x_1\\ \frac{\partial E}{\partial w_{12}}=\frac{\mathrm{d}E}{\mathrm{d}a_1}\cdot \frac{\partial a_1}{\partial w_{12}}=\left( y-Y \right) w_1\varphi '\left( a_1 \right) x_2\\ \frac{\partial E}{\partial b_1}=\left( y-Y \right) w_1\varphi '\left( a_1 \right)\\ \frac{\partial E}{\partial b_2}=\left( y-Y \right) w_2\varphi '\left( a_2 \right)\\ \frac{\partial E}{\partial w_{21}}=\left( y-Y \right) w_2\varphi '\left( a_2 \right) x_1\\ \frac{\partial E}{\partial w_{22}}=\left( y-Y \right) w_2\varphi '\left( a_2 \right) x_2\\ \end{cases}$

偏导数计算由后到前（包括三个重要节点偏导数，以及其余各点的偏导数），因此叫作“后向传播”.

（3）激活函数 $\varphi(\cdot)$ 的选取

若 $\varphi(x)$ 仍取阶跃函数，那么其导数除了在 $x = 0$ 处为无穷大以外，其余皆为 $0$ ，无法应用在BP算法中. 因此需要选取其他的 $\varphi(\cdot)$ .

$\varphi(\cdot)$ 有以下几种常见的选取方法：

① $\text{Sigmoid}$ 函数

$\varphi \left( x \right) =\frac{1}{1+\mathrm{e}^{-x}}$ 其导数具有良好性质：
$\begin{aligned} \varphi '\left( x \right) &=\frac{\mathrm{e}^{-x}}{\left( 1+\mathrm{e}^{-x} \right) ^2}=\frac{1}{1+\mathrm{e}^{-x}}\cdot \frac{\mathrm{e}^{-x}}{1+\mathrm{e}^{-x}} \\ &=\varphi \left( x \right) \left[ 1-\varphi \left( x \right) \right]. \end{aligned}$
在这里插入图片描述

其模拟了阶跃函数的图象特征，并且导数容易计算. 同时，也能证明使用其作为激活函数的三层神经网络能够模拟所有决策面.

② 双曲正切函数 $\tanh(x)$

$\varphi \left( x \right) =\tanh \left( x \right) =\frac{\mathrm{e}^x-\mathrm{e}^{-x}}{\mathrm{e}^x+\mathrm{e}^{-x}}$ 并且
$\varphi '\left( x \right) =\frac{1}{\cosh ^2\left( x \right)}=1-\left[ \varphi \left( x \right) \right] ^2$ 可以证明使用其作为激活函数的三层神经网络能够模拟所有决策面.
在这里插入图片描述

以下是深度学习中常用的激活函数.

③ 线性整流函数(Rectified Linear Unit, ReLU)

$\begin{aligned} &\varphi \left( x \right) =\left\{ \begin{array}{c} x,x>0\\ 0,x\leqslant 0\\ \end{array}=\max \left\{ 0,x \right\} \right.\\ &\varphi '\left( x \right) =\left\{ \begin{array}{c} 1,x>0\\ 0,x\leqslant 0\\ \end{array} \right. \end{aligned}$
在这里插入图片描述

与Sigmoid相比，ReLU的特点
① 避免Sigmoid函数的“梯度消失”;
② 稀疏激活性;
③ 运算速度快;
…

④ Leaky ReLU

在这里插入图片描述

（4）用数学形式表示EP算法

神经网络可用矩阵形式表示如下：
$\begin{aligned} \underset{\text{向量}}{X}=a^{\left( 0 \right)}&\xRightarrow{\text{输入}}\underset{M\times N}{W^{\left( 1 \right)}}\underset{N\times 1}{a^{\left( 0 \right)}}+\underset{M\times 1}{b^{\left( 1 \right)}}=\underset{M\times 1}{z^{\left( 1 \right)}}\xrightarrow{\varphi}\underset{M\times 1}{a^{\left( 1 \right)}} \\ &\xrightarrow{\text{进入第二层神经网络}}z^{\left( 2 \right)}=W^{\left( 2 \right)}a^{\left( 1 \right)}+b^{\left( 2 \right)}\xrightarrow{\varphi}a^{\left( 2 \right)} \\ &\xrightarrow{\text{进入第三层神经网络}}z^{\left( 3 \right)}=W^{\left( 3 \right)}a^{\left( 2 \right)}+b^{\left( 3 \right)}\xrightarrow{\varphi}a^{\left( 3 \right)} \\ &\xrightarrow{\text{进入第四层神经网络}}\cdots \\ &\xrightarrow{\text{进入第}l\text{层神经网络}}z^{\left( l \right)}=W^{\left( l \right)}a^{\left( l-1 \right)}+b^{\left( l \right)}\xrightarrow{\varphi}a^{\left( l \right)} \\ &\xRightarrow{\text{输出}}y=a^{\left( l \right)}=\varphi \left( z^{\left( l \right)} \right) \end{aligned}$

备注：此处的 $z 、 a$ 与（2）中记号相反，以下的推导以此处符号为准.

一些参数说明如下：
① 层数： $l$ ;
② $z^{\left( k \right)},a^{\left( k \right)},b^{\left( k \right)}$ 是第 $k$ 层的列向量，其维数等于第 $k$ 层神经元个数;
③ $z_{i}^{(k)},a_{i}^{(k)},b_{i}^{(k)}$ 是数，分别表示 $z^{\left( k \right)},a^{\left( k \right)},b^{\left( k \right)}$ 的第 $i$ 个分量;
④ $y_i$ 表示 $y$ 的第 $i$ 个分量.

BP算法：
$S t e p 1 :$ 随机初始化 $(W, b)$ .
$S t e p 2 :$ 训练样本 $(X, Y)$ ，代入网络，可求出所有的 $(z, a, y)$ . （前向传播(Forward Propagation)）
$S t e p 3 :$ 链式法则求偏导.
定义目标函数
$\min E=\frac{1}{2}\left\| y-Y \right\| ^2=\frac{1}{2}\sum_{i=1}^m{\left( y_i-Y_i \right) ^2}$ 求所有的
$\frac{\partial E}{\partial w}, \frac{\partial E}{\partial b}.$
记关键节点
$\delta _{i}^{\left( m \right)}=\frac{\partial E}{\partial z_{i}^{(m)}}$ 那么
$\begin{aligned} &① \quad \delta _{i}^{\left( l \right)}=\frac{\partial E}{\partial y_i}\cdot \frac{\partial y_i}{\partial z_{i}^{(l)}}=\left( y_i-Y_i \right) \varphi '\left( z_{i}^{\left( l \right)} \right) （注意该式中所有量已知，可以直接算出值） \\ &②\quad 递推公式: \delta _{i}^{\left( m \right)}=\sum_{j=1}^{S_{m+1}}{\left( \delta _{j}^{\left( m+1 \right)}w_{ji}^{(m+1)} \right)}\cdot \varphi '\left( z_{i}^{(m)} \right) \end{aligned}$

$S t e p 4 :$ 更新
$\begin{cases} W^{\left( \mathrm{new} \right)}=W^{\left( \mathrm{old} \right)}-\alpha \left. \frac{\partial E}{\partial W} \right|_{W^{\left( \mathrm{old} \right)}}\\ b^{\left( \mathrm{new} \right)}=b^{\left( \mathrm{old} \right)}-\alpha \left. \frac{\partial E}{\partial b} \right|_{b^{\left( \mathrm{old} \right)}}\\ \end{cases}$

注：以上的②是为了求得 $\delta _{i}^{\left( m \right)}$ 与 $\delta _{i}^{\left( m+1 \right)}$ 的关系，由此可以由后往前计算得到各层的 $\delta _{i}^{\left( m \right)}$ ，实现反向传播. 具体推导过程如下.
在 $m$ 到 $m + 1$ 层过程中，有以下关系
$z^{\left( m \right)}=W^{\left( m \right)}a^{\left( m-1 \right)}+b^{\left( m \right)}\xrightarrow{\varphi}a^{\left( m \right)}\xrightarrow{\text{进入第}\left( m+1 \right) \text{层神经网络}}z^{\left( m+1 \right)}=W^{\left( m+1 \right)}a^{\left( m \right)}+b^{\left( m \right)}\xrightarrow{\varphi}a^{\left( m+1 \right)}$ 因此
$\begin{aligned} \delta _{i}^{\left( m \right)}&=\frac{\partial E}{\partial z_{i}^{(m)}}=\sum_{j=1}^{S_{m+1}}{\left( \frac{\partial E}{\partial z_{j}^{(m+1)}}\cdot \frac{\partial z_{j}^{(m+1)}}{\partial z_{i}^{(m)}} \right)} \\ &=\sum_{j=1}^{S_{m+1}}{\left( \delta _{j}^{\left( m+1 \right)}\cdot \frac{\partial z_{j}^{(m+1)}}{\partial z_{i}^{(m)}} \right)} \\ &=\sum_{j=1}^{S_{m+1}}{\left( \delta _{j}^{\left( m+1 \right)}\cdot \frac{\partial z_{j}^{(m+1)}}{\partial z_{i}^{(m)}} \right)} \\ &=\sum_{j=1}^{S_{m+1}}{\left( \delta _{j}^{\left( m+1 \right)}\cdot \frac{\partial z_{j}^{(m+1)}}{\partial a_{i}^{(m)}}\cdot \frac{\partial a_{j}^{(m)}}{\partial z_{i}^{(m)}} \right)} \\ &=\sum_{j=1}^{S_{m+1}}{\left( \delta _{j}^{\left( m+1 \right)}\cdot \frac{\partial z_{j}^{(m+1)}}{\partial a_{i}^{(m)}}\cdot \frac{\partial a_{i}^{(m)}}{\partial z_{i}^{(m)}} \right)} \\ &=\sum_{j=1}^{S_{m+1}}{\left( \delta _{j}^{\left( m+1 \right)}\cdot w_{ji}^{(m+1)}\cdot \varphi '\left( z_{i}^{(m)} \right) \right)} \\ &=\sum_{j=1}^{S_{m+1}}{\left( \delta _{j}^{\left( m+1 \right)}w_{ji}^{(m+1)} \right)}\cdot \varphi '\left( z_{i}^{(m)} \right) \end{aligned}$