BP神经网络

Viokiri

已于 2022-09-26 15:27:21 修改

阅读量696

点赞数

于 2022-08-21 17:50:26 首次发布

本文链接：https://blog.csdn.net/weixin_44570398/article/details/126414545

版权

为什么要使用神经网络？

虽然对于分类问题，可以运用Logistic回归，但是对于一些过于复杂的非线性训练集合，既分类问题，Logistic回归的决策边界可能会过于复杂，而且可能会导致过拟合的问题，如下图所示：

对于这个有两个特征变量 $x_{1}$ 和 $x_{2}$ 的分类问题，可以用包含许多非线性项的Logistic函数，既假设函数来拟合数据集

$h_{\theta }(x)=g\left ( \theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}+\theta _{3}x_{1}x_{2}+\theta _{4}x_{1}^{2}x_{2}+\theta _{5}x_{1}x_{2}^{2}+\theta _{6}x_{1}^{3}x_{2}+\cdots \right )$

当多项式足够多时，或许可以划分决策边界，把正负样本给区分开。

但是许多分类问题中可能特征远不止两项，假设有100个特征变量

$x=\begin{bmatrix} x_{1}\\ x_{2}\\ \vdots \\ x_{100} \end{bmatrix}$

这样光是二次项就有5151种可能，将 $n=100$

$(n+1)+n+(n-1)+\cdots +1=\frac{(n+1)(n+2)}{2}$

故二次项的数量呈 $O(n^{2})$ 的复杂度递增，而三次项的数目就会更多，呈 $O(n^{3})$ 的复杂度递增，故即使只是包含全部的二次项，Logistic回归也并不是一个很好的选择，最后得出的结果可能也会过拟合。

所以，当特征个数 $n$ 很大时，将这些高阶多项式项数包括到特征里，会使特征空间急剧膨胀，而对于许多实际的机器学习问题，特征变量的个数 $n$ 是很大的，如下例所示：

要辨别图像是否为一辆汽车，以其中的两个像素点作为输入特征可以简单地划分是正负样本，但一张图片可能包含许多像素点，假设图片都是 $50\times 50$ 像素，一张图片一共有2500个像素点。因此，特征向量的元素个数 $n$ 就是2500，如果我们想通过包含所有二次项特征的假设函数来学习得到的非线性假设，那总共就会包含约 $3\times 10^{7}$ 个特征，特征空间过大严重影响Logistic回归算法的效率。

所以，用包含二次项和三次项的简单Logistic回归来学习当特征个数 $n$ 很大时的非线性假设并不是一个很好的方法。

神经网络模型

下图是一个简单的只包含单个神经元的神经网络模型，黄色圆圈表示神经元细胞体，用于处理接收到的信息，既一个逻辑单元，通过树突或者输入通道输入特征变量 $x_{1}$ ， $x_{2}$ 和 $x_{3}$ ，最后通过轴突输出计算结果，既假设函数，在神经网络里也可以称为激活函数（activation function）。

$h_{\theta }(x)=\frac{1}{1+e^{-\theta ^{T}x}}$

其中特征向量 $x$ 和参数向量 $\theta$ 为

$x=\begin{bmatrix} x_{0}\\ x_{1}\\ x_{2}\\ x_{3} \end{bmatrix},\ \theta =\begin{bmatrix} \theta _{0}\\ \theta _{1}\\ \theta _{2}\\ \theta _{3} \end{bmatrix}$

在绘制神经网络模型时，一般只绘制输入特征，而不会加上 $x_{0}$ ，因为 $x_{0} = 1$ 。当在有必要的时候加上 $x_{0}$ 时，把 $x_{0}$ 称为偏置单元（bias unit）。

但神经网络其实是一组神经元连接在一起的集合，如下图所示

把用于输入特征变量的第一层称为输入层（input layer），最后一层用于输出假设函数的称为输出层（output layer），而中间用于处理数据的神经元都被称为隐藏层（hidden layer）。除了输出层之外的每一层都可以加入偏置单元，且都为1。

$a_{i}^{(j)}$ 表示第 $j$ 层第 $i$ 个激活项
$\Theta ^{(j)}$ 是权重矩阵，既参数矩阵，它控制着从第 $j$ 层到第 $j+1$ 层的映射，因为 $\Theta ^{(j)}$ 是矩阵所以要大写

每个激活项的表达式如下

$a_{1}^{(2)}=g\left ( \Theta _{10}^{(1)}x_{0}+\Theta _{11}^{(1)}x_{1}+\Theta _{12}^{(1)}x_{2}+\Theta _{13}^{(1)}x_{3} \right )$

$a_{2}^{(2)}=g\left ( \Theta _{20}^{(1)}x_{0}+\Theta _{21}^{(1)}x_{1}+\Theta _{22}^{(1)}x_{2}+\Theta _{23}^{(1)}x_{3} \right )$

$a_{3}^{(2)}=g\left ( \Theta _{30}^{(1)}x_{0}+\Theta _{31}^{(1)}x_{1}+\Theta _{32}^{(1)}x_{2}+\Theta _{33}^{(1)}x_{3} \right )$

输出单元的表达如下

$a_{1}^{(3)}=h_{\Theta }(x)=g\left ( \Theta _{10}^{(2)}a_{0}^{(2)}+\Theta _{21}^{(2)}a_{1}^{(2)}+\Theta _{22}^{(2)}a_{2}^{(2)}+\Theta _{23}^{(2)}a_{3}^{(2)} \right )$

因此 $\Theta ^{(1)}$ 是一个 $3\times 4$ 的矩阵， $\Theta ^{(1)}\in \mathbb{R}^{3\times 4}$ ，它控制着第1层输入层到第2层隐藏层的映射

$\Theta ^{(1)}=\begin{bmatrix} \Theta _{10}^{(1)} & \Theta _{11}^{(1)} & \Theta _{12}^{(1)} &\Theta _{13}^{(1)}\\ \Theta _{20}^{(1)}& \Theta _{21}^{(1)} & \Theta _{22}^{(1)} & \Theta _{23}^{(1)}\\ \Theta _{30}^{(1)}& \Theta _{31}^{(1)} & \Theta _{32}^{(1)} &\Theta _{33}^{(1)} \end{bmatrix}$

而 $\Theta ^{(2)}$ 是一个 $1\times 3$ 的矩阵， $\Theta ^{(2)}\in \mathbb{R}^{1\times 4}$ ，它控制着第2层隐藏层到第3层输出层的映射

$\Theta ^{(2)}=\begin{bmatrix} \Theta _{10}^{(2)} & \Theta _{11}^{(2)} & \Theta _{12}^{(2)} &\Theta _{13}^{(2)} \end{bmatrix}$

由此可知 $\Theta ^{(j)}\in \mathbb{R}^{s_{j + 1}\times (s_{j}+1)}$ ， $s_{j}+1$ 是第 $j$ 层激活项加上该层的偏置项的个数， $s_{j+1}$ 是第 $j+1$ 层激活项的个数。

1、前向传播算法

对神经网络模型进行向量化，将每个激活项进行化简

$z_{1}^{(2)}= \Theta _{10}^{(1)}x_{0}+\Theta _{11}^{(1)}x_{1}+\Theta _{12}^{(1)}x_{2}+\Theta _{13}^{(1)}x_{3}$

那么激活项 $a_{1}^{(2)}$ 为

$a_{1}^{(2)}=g\left ( z_{1}^{(2)} \right )$

同理可得 $z_{2}^{(2)}$ ， $z_{3}^{(2)}$ 和 $a_{2}^{(2)}$ ， $a_{3}^{(2)}$ ，那么

$z^{(2)}=\begin{bmatrix} z_{1}^{(2)}\\ z_{2}^{(2)}\\ z_{3}^{(2)} \end{bmatrix},\ a^{(2)}=\begin{bmatrix} a_{1}^{(2)}\\ a_{2}^{(2)}\\ a_{3}^{(2)} \end{bmatrix}$

而特征变量 $x$ 为

$x=\begin{bmatrix} x_{1}\\ x_{2}\\ x_{3}\\ \end{bmatrix}$

因此 $z^{(2)}$ 可以简化成权重矩阵 $\Theta ^{(1)}$ 和添加进偏置项 $x_{0}$ 的特征向量 $x$ 相乘

$z^{(2)}=\begin{bmatrix} \Theta _{10}^{(1)} & \Theta _{11}^{(1)} & \Theta _{12}^{(1)} &\Theta _{13}^{(1)} \\ \Theta _{20}^{(1)} & \Theta _{21}^{(1)} & \Theta _{22}^{(1)} &\Theta _{23}^{(1)} \\ \Theta _{30}^{(1)} & \Theta _{31}^{(1)} & \Theta _{32}^{(1)} &\Theta _{33}^{(1)} \\ \end{bmatrix}\begin{bmatrix} x_{0}\\ x_{1}\\ x_{2}\\ x_{3} \end{bmatrix}=\Theta ^{(1)}x$

故 $a^{(2)}$ 为

$a^{(2)}=g\left ( z^{(2)} \right )=g\left ( \Theta ^{(1)}x \right )$

把第1层输入层作为第1层激活层 $a^{(1)}$ ，既

$a^{(2)}=g\left ( z^{(2)} \right )=g\left ( \Theta ^{(1)}a^{(1)} \right )$

以此类推，将偏置项 $a_{0}^{(2)}=1$ 加入 $a^{(2)}$ ，可得输出层 $a^{(3)}$ 为

$h_{\Theta }(x)=a^{(3)}=g\left ( z^{(3)} \right )=g(\Theta ^{(2)}a^{(2)})$

这就是前向传播算法的向量表示，我自己把它理解为，最后输出层得到的就是神经网络的模型，既假设函数。

这是二元分类的例子，而在多元分类（multi-class classification）问题中，最后输出层输出的是一个向量， $K$ 元分类问题就是 $K$ 维向量。如下图所示，要分辨出图像的类别，是轿车，行人，摩托车还是卡车，则是4元分类问题，输出的就是4维向量。

$y\in \mathbb{R}^{K}, \ h_{\Theta }(x)\in \mathbb{R}^{K}$

当该图像是行人时，则目标变量 $y$ 和假设函数 $h_{\Theta }(x)$ 分别为

$y=\begin{bmatrix} 1\\ 0\\ 0\\ 0 \end{bmatrix},\ h_{\Theta }(x)\approx \begin{bmatrix} 1\\ 0\\ 0\\ 0 \end{bmatrix}$

当该图像轿车是时，则目标变量 $y$ 和假设函数 $h_{\Theta }(x)$ 分别为

$y=\begin{bmatrix} 0\\ 1\\ 0\\ 0 \end{bmatrix},\ h_{\Theta }(x)\approx \begin{bmatrix} 0\\ 1\\ 0\\ 0 \end{bmatrix}$

以此类推。

2、激活函数的选择

如果要解决回归问题，毫无疑问选择线性函数；如果我们要解决二元分类问题，隐藏层选择ReLU函数，输出层选择sigmoid函数；如果要解决多元分类问题，隐藏层依然选择ReLU函数，但是输出层选择softmax函数。选择sigmoid函数也可行，但是需要同时修改代价函数。

如果都选择用线性的激活函数，从输入层开始

$a^{(1)} = x^{(1)}$

$a^{(2)} = g\left (\Theta ^{(1)}a^{(1)} \right )=\Theta ^{(1)}a^{(1)}$

$a^{(3)} = g\left (\Theta ^{(2)}a^{(2)} \right )=\Theta ^{(2)}a^{(2)}=\Theta ^{(2)}\Theta ^{(1)}a^{(1)}$

$\vdots$

$a^{(l)} = g\left (\Theta ^{(l-1)}a^{(l-1)} \right )=\Theta ^{(l-1)}a^{(l-1)}=\Theta ^{(l-1)}\Theta ^{(l-2)}a^{(l-2)}=\Theta ^{(l-1)}\Theta ^{(l-2)}\cdots \Theta ^{(1)}a^{(1)}$

因此最后输出层输出的值依旧是线性的，就等同于线性回归。

3、代价函数

假设有如图所示神经网络

训练集有 $m$ 个训练样本

$\left \{ \left ( x^{(1)},y^{(1)} \right ),\left( x^{(2)},y^{(2)} \right ),\cdots,\left ( x^{(m)},y^{(m)} \right ) \right \}$

$L$ 表示这个神经网络的总层数
$s_{l}$ 表示第 $l$ 层神经元的数量，既激活项的数量。这个数量不包括偏置项

神经网络的代价函数是Logistic回归代价函数的一般形式，因为Logistic回归只有一个目标变量 $y$ ，所以也只会有一个逻辑回归输出单元 $h_{\theta }(x)$ ,而对于神经网络来说可能会有一个 $K$ 维的目标向量 $y$ ，所以输出的也是一个 $K$ 维向量 $h_{\Theta }(x)$

$y\in \mathbb{R}^{K}$ ， $h_{\Theta }(x)\in \mathbb{R}^{K}$

那么 $\left (h_{\Theta }(x) \right )_{k}$ 就表示输出层 $K$ 维向量中的第 $k$ 个输出单元，因此输出层的激活函数为sigmoid函数的神经网络的代价函数 $J(\Theta )$ 为

$J(\Theta )=-\frac{1}{m}\left [ \sum_{i = 1}^{m}\sum_{k = 1}^{K}\left (y^{(i)}_{k}\log \left ( h_{\Theta }(x^{(i)}) \right )_{k}+ \left ( 1-y_{k}^{(i)} \right )\log \left ( 1 - h_{\Theta }(x^{(i)})_{k} \right ) \right )\right ]+ \frac{\lambda }{2m}\sum_{l = 1}^{L}\sum_{i = 1}^{s_{l + 1}}\sum_{j = 1}^{s_{l}}\left (\Theta _{ij}^{(l)} \right )^{2}$

输出层的激活函数为softmax函数的神经网络的代价函数 $J(\Theta )$ 为

$J(\Theta )=-\frac{1}{m}\left [ \sum_{i = 1}^{m}\sum_{k = 1}^{K}y^{(i)}_{k}\log \left ( h_{\Theta }(x^{(i)}) \right )_{k} \right ]+ \frac{\lambda }{2m}\sum_{l = 1}^{L}\sum_{i = 1}^{s_{l + 1}}\sum_{j = 1}^{s_{l}}\left (\Theta _{ij}^{(l)} \right )^{2}$

其中 $\frac{\lambda }{2m}\sum_{l = 1}^{L}\sum_{i = 1}^{s_{l + 1}}\sum_{j = 1}^{s_{l}}\Theta _{ij}^{(l)}$ 为正则项，下标从 $\Theta ^{(l)}_{i1}$ 开始，不包括偏置项的参数（权重）。

4、反向传播算法

在得到神经网络模型的代价函数后，需要找到参数 $\Theta$ 使得代价函数最小，既求出代价函数的最小值 $\underset{\Theta }{min}J(\Theta )$ ，无论是利用梯度下降法还是别的高级算法，要求出 $\underset{\Theta }{min}J(\Theta )$ ，都需要计算每个参数的偏导数，既求出 $\frac{\partial J(\Theta )}{\partial \Theta _{ij}^{(l)}}$ 。

从输出层开始，从后往前开始求导。输出层为

$h_{\Theta }\left ( x \right )=\begin{bmatrix} a_{1}^{(l+1)}\\ a_{1}^{(l+1)}\\ \\ \vdots a_{n^{(l+1)}}^{(l+1)} \end{bmatrix}=g\left (z^{(l+1)} \right )$

而 $z^{(l+1)}$ 为

$z^{(l+1)} = \Theta ^{(l)}a^{(l)}=\begin{bmatrix} \Theta _{11}^{(l)} & \Theta _{12}^{(l)} & \cdots & \Theta _{1n^{(l)}}^{(l)} \\ \Theta _{21}^{(l)} & \Theta _{22}^{(l)} & \cdots & \Theta _{2n^{(l)}}^{(l)} \\ \vdots &\vdots &\ddots & \vdots \\ \Theta _{n1}^{(l)} & \Theta _{22}^{(l)} & \cdots & \Theta _{2n^{(l)}}^{(l)} \\ \end{bmatrix}\begin{bmatrix} a_{1}^{(l)}\\ a_{2}^{(l)}\\ \vdots \\ a_{n^{(l)}}^{(l)} \end{bmatrix}$

对 $\Theta ^{(l)}$ 的第一行 $\Theta _{1j}^{(l)}$ 开始求导，当选用sigmoid函数作为输出层的激活函数时，除了 $\left (h_{\Theta } \left ( x^{(i)} \right ) \right )_{1}$ ，其余输出项对 $\Theta _{1j}^{(l)}$ 求偏导都为0，因此

$\frac{\partial J(\Theta )}{\partial \Theta _{1j}^{(l)}}=\frac{\partial J\left ( \Theta \right )}{\partial z_{1} ^{(l+1)}}\cdot \frac{\partial z _{1}^{(l+1)}}{\partial \Theta _{1j}^{(l)}}=\frac{1}{m}\left [ \sum_{i = 1}^{m} \left (\left (h_{\Theta } \left ( x^{(i)} \right ) \right )_{1} - y_{1} ^{(i)} \right ) \cdot \left (a^{(l)} \right )^{T}\right]$

当选用softmax函数作为输出层的激活函数时，

$\frac{\partial J\left ( \Theta \right )}{\partial z_{1} ^{(l+1)}}=\frac{1}{m}\left [ \sum_{i=1}^{m}y_{1} ^{(i)}\left (\left (h_{\Theta }\left ( x^{(i)} \right ) \right )_{1}-1\right )+ y^{(i)}_{2}\left (h_{\Theta }\left ( x^{(i)} \right ) \right )_{2}+ \cdots+ y^{(i)} _{K}\left (h_{\Theta }\left ( x^{(i)} \right ) \right )_{K} \right ]$

除了第 $\left ( y^{(i)} \right )_{k}$ ，其余输出项全部为0，因此

$\frac{\partial J(\Theta )}{\partial \Theta _{1j}^{(l)}}=\left\{\begin{matrix} \frac{1}{m}\left [ \sum_{i=1}^{m} y^{(i)}_{k}\left (\left (h_{\Theta }\left ( x^{(i)} \right ) \right )_{k}-1\right )\cdot \left ( a^{(l)} \right )^{T}\right ] \ , \ if \ k=1 \\ \frac{1}{m}\left [ \sum_{i=1}^{m} y^{(i)} _{k}\left (h_{\Theta }\left ( x^{(i)} \right ) \right )_{k}\cdot \left ( a^{(l)} \right )^{T}\right ] \ , \ if \ k=else \end{matrix}\right.$

以此类推，以sigmoid函数作为输出层的激活函数时的 $\frac{\partial J(\Theta )}{\partial \Theta ^{(l)}}$ 为

$\frac{\partial J(\Theta )}{\partial \Theta ^{(l)}}=\frac{\partial J\left ( \Theta \right )}{\partial z^{(l+1)}}\cdot \frac{\partial z ^{(l+1)}}{\partial \Theta ^{(l)}}=\frac{1}{m}\left [ \sum_{i = 1}^{m} \left (h_{\Theta } \left ( x^{(i)} \right ) - y^{(i)} \right ) \cdot \left (a^{(l)} \right )^{T} \right]$

以softmax函数作为输出层的激活函数时的 $\frac{\partial J(\Theta )}{\partial \Theta ^{(l)}}$ 为

$\frac{\partial J(\Theta )}{\partial \Theta ^{(l)}}=\frac{1}{m}\sum _{i=1}^{m}\begin{bmatrix} \left ( h_{\Theta }\left ( x^{(i)} \right )-1 \right )_{1} & \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{1} & \cdots & \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{1}\\ \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{2} & \left ( h_{\Theta }\left ( x^{(i)} \right )-1 \right )_{2} & \cdots & \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{2} \\ \vdots & \vdots & \ddots &\vdots \\ \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{n} & \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{n} & \cdots & \left ( h_{\Theta }\left ( x^{(i)} -1\right ) \right )_{n} \end{bmatrix}\cdot y^{(i)}\cdot a^{(l)}$

接下来对 $\Theta ^{(l-1)}$ 进行求导

$\frac{\partial J(\Theta )}{\partial \Theta ^{(l-1)}}=\frac{\partial J\left ( \Theta \right )}{\partial z^{(l+1)}}\cdot \frac{\partial z ^{(l+1)}}{\partial a ^{(l)}}\cdot \frac{\partial a ^{(l)}}{\partial z^{(l)}}\cdot \frac{\partial z ^{(l)}}{\partial \Theta ^{(l-1)}}$

其中由之前对 $\Theta ^{(l)}$ 求导可知，

$\frac{\partial J\left ( \Theta \right )}{\partial z^{(l+1)}}=\frac{1}{m}\left [ \sum_{i = 1}^{m} \left (h_{\Theta } \left ( x^{(i)} \right ) - y^{(i)} \right ) \right]$

或者

$\frac{\partial J(\Theta )}{\partial z ^{(l+1)}}=\frac{1}{m}\sum _{i=1}^{m}\begin{bmatrix} \left ( h_{\Theta }\left ( x^{(i)} \right )-1 \right )_{1} & \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{1} & \cdots & \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{1}\\ \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{2} & \left ( h_{\Theta }\left ( x^{(i)} \right )-1 \right )_{2} & \cdots & \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{2} \\ \vdots & \vdots & \ddots &\vdots \\ \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{n} & \left ( h_{\Theta }\left ( x^{(i)} \right ) \right )_{n} & \cdots & \left ( h_{\Theta }\left ( x^{(i)} -1\right ) \right )_{n} \end{bmatrix}\cdot y^{(i)}$

同样先对 $\Theta _{1j}^{(l-1)}$ 求导，而除了 $z_{1}^{(l+1)}$ ，其余激活项对 $\Theta _{1j}^{(l-1)}$ 的偏导数也都为0，因此

$\frac{\partial z _{1}^{(l+1)}}{\partial a ^{(l)}}\cdot \frac{\partial a ^{(l)}}{\partial z^{(l)}}\cdot \frac{\partial z ^{(l)}}{\partial \Theta ^{(l-1)}}=\left (\Theta _{1j}^{(l)} \right )^{T}\cdot g'\left ( z^{(l)} \right )\cdot \left (a^{(l-1)} \right )^{T}$

以此类推

$\frac{\partial z ^{(l+1)}}{\partial a ^{(l)}}\cdot \frac{\partial a ^{(l)}}{\partial z^{(l)}}\cdot \frac{\partial z ^{(l)}}{\partial \Theta ^{(l-1)}}=\left (\Theta ^{(l)} \right )^{T}\cdot g'\left ( z^{(l)} \right )\cdot \left (a^{(l-1)} \right )^{T}$

然后对 $\Theta ^{(l-2)}$ 进行求导

$\frac{\partial J(\Theta )}{\partial \Theta ^{(l-2)}}=\frac{\partial J\left ( \Theta \right )}{\partial z^{(l+1)}}\cdot \frac{\partial z ^{(l+1)}}{\partial a ^{(l)}}\cdot \frac{\partial a ^{(l)}}{\partial z^{(l)}}\cdot \frac{\partial z ^{(l)}}{\partial a ^{(l-1)}}\cdot \frac{\partial a^{(l-1)}}{\partial z^{(l-1)}}\cdot \frac{\partial z^{(l-1)}}{\partial \Theta ^{(l-2)}}$

其中

$\frac{\partial J\left ( \Theta \right )}{\partial z^{(l+1)}}\cdot \frac{\partial z ^{(l+1)}}{\partial a ^{(l)}}\cdot \frac{\partial a ^{(l)}}{\partial z^{(l)}}=\left (\Theta ^{(l)} \right )^{T}\cdot g'\left ( z^{(l)} \right )$

而 $\frac{\partial z ^{(l)}}{\partial a ^{(l-1)}}\cdot \frac{\partial a^{(l-1)}}{\partial z^{(l-1)}}\cdot \frac{\partial z^{(l-1)}}{\partial \Theta ^{(l-2)}}$ 的求导步骤与上一层一样，因此可以得出

$\frac{\partial z ^{(l)}}{\partial a ^{(l-1)}}\cdot \frac{\partial a^{(l-1)}}{\partial z^{(l-1)}}\cdot \frac{\partial z^{(l-1)}}{\partial \Theta ^{(l-2)}}=\left (\Theta ^{(l-1)} \right )^{T}\cdot g'\left ( z^{(l-1)} \right )\cdot \left (a^{(l-2)} \right )^{T}$

把输入层作为 $a^{(1)}$ ，就可以得出所有 $\frac{\partial J(\Theta )}{\partial \Theta ^{(l)}}$ 的值，把 $\frac{\partial J(\Theta )}{\partial z^{(l)}} \ , \ (l=1,2\cdots ,n)$ 称作误差项 $\delta ^{(l)}$ 。

先以一个训练样本 $(x^{(1)}, y^{(1)})$ 为例，利用前向传播算法得出输出层输出向量，既假设函数 $h_{\Theta }(x)$ 的向量

$a^{(1)}=x$

$z^{(2)}=\Theta ^{(1)}a^{(1)}$

$a^{(2)}=g(z^{(2)})$

$z^{(3)}=\Theta ^{(2)}a^{(2)}$

$a^{(3)}=g(z^{(3)})$

$z^{(4)}=\Theta ^{{(3)}}a^{(3)}$

$a^{(4)}=h_{\Theta }(x)=g(z^{(4)})$

接下来为了计算偏导项，将利用反向传播算法（Backpropagation），反向传播算法就是对每一个激活项计算 $\delta _{j}^{(l)}$ ， $\delta _{j}^{(l)}$ 代表第 $l$ 层第 $j$ 项的误差，从后往前计算。从输出层开始

$\delta ^{(4)}_{j}=a_{j}^{(4)}-y_{j}=(h_{\Theta }(x))_{j}-y_{j}$

因此转化为向量形式为

$\delta ^{(4)}=a^{(4)}-y=h_{\Theta }(x)-y$

而之前几层的误差项的计算方式和最后一层输出层有所区别

$\delta ^{(3)}=(\Theta ^{(3)})^{T}\delta ^{(4)}.* g'\left ( z^{(3)} \right )$

$\delta ^{(2)}=(\Theta ^{(2)})^{T}\delta ^{(3)}.* g'\left ( z^{(2)} \right )$

“ $.*$ ”表示向量中的项两两相乘。又因为 $g'(z)$ 为

$g'(z)=\frac{e^{-z}}{\left (1+e^{-z} \right )^{2}}$

故 $g'\left ( z^{(l)} \right )$ 可以化简为

$g'\left ( z^{(l)} \right )=g\left ( z^{(l)} \right ).*\left (1-g\left ( z^{(l)} \right ) \right )=a^{(l)}.*\left (1-a^{(l)} \right )$

而第一层 $a^{(1)}$ 为输入层也就是特征向量 $x$ ，不存在误差，也就没有 $\delta ^{(1)}$ 。

所以误差项的一般形式为

$\delta ^{(L)}=a^{(L)}-y=h_{\Theta }(x)-y$

$\delta ^{(l)}=(\Theta ^{(l)})^{T}\delta ^{(l+1)}.* g'\left ( z^{(l)} \right )=(\Theta ^{(l)})^{T}\delta ^{(l+1)}.*a^{(l)}.*\left (1-a^{(l)} \right )$

每个省去正则项的偏导项 $\frac{\partial J(\Theta )}{\partial \Theta _{ij}^{(l)}}$ 为

$\frac{\partial J(\Theta )}{\partial \Theta _{ij}^{(l)}}=a_{j}^{(l)}\delta _{i}^{(l+1)}$

向量化后为

$\frac{\partial J(\Theta )}{\partial \Theta ^{(l)}}=\delta ^{(l + 1)}\left ( a^{(l)} \right )^{T}$

对 $m$ 个训练样本重复以上操作，把偏导矩阵记作 $\Delta ^{(l)}$ ，并对所有训练样本所对应参数的偏导矩阵求和

$\Delta ^{(l)}:= \Delta ^{(l)}+\delta ^{(l + 1)}\left ( a^{(l)} \right )^{T}$

最后分两种情况选择是否对正则项求偏导

$D_{ij} ^{(l)}:= \left\{\begin{matrix} \frac{1}{m}\Delta_{ij} ^{(l)}+\lambda \Theta_{ij} ^{(l)} \ , \ j \neq 0 \\ \frac{1}{m}\Delta_{ij} ^{(l)} \ \ \ \ \ \ \ \ \ \ \ , \ j \neq 0 \end{matrix}\right.$

由此可知所有参数的偏导数为

$\frac{\partial J(\Theta )}{\partial \Theta _{ij}^{(l)}}=D_{ij}^{(l)}$

5、梯度检测

由偏导数的定义可知

$\frac{\partial J(\theta _{0},\theta _{1},\cdots ,\theta _{n})}{\partial \theta _{i}}=\underset{\varepsilon \rightarrow 0}{\lim}\frac{J(\theta _{0},\theta _{1},\cdots ,\theta _{i} + \varepsilon ,\cdots ,\theta _{n})-J(\theta _{0},\theta _{1},\cdots ,\theta _{n})}{\varepsilon }$

为了检测后向传播算法是否正常运行，对 $\delta _{ij}^{(l)}$ 以及偏导数 $\Delta _{ij}^{(l)}$ 的计算是否有误差，如果

$\frac{\partial J(\Theta)}{\partial \Theta _{ij}^{(l)}}\approx \frac{J(\Theta _{ij}^{(l)} + \varepsilon)-J(\Theta _{ij}^{(l)} - \varepsilon)}{2\varepsilon }$