（学习笔记）BP神经网络

最新推荐文章于 2024-03-31 11:45:05 发布

想要变强的笨笨猪

最新推荐文章于 2024-03-31 11:45:05 发布

阅读量558

点赞数

分类专栏：机器学习文章标签：神经网络算法 python 机器学习

本文链接：https://blog.csdn.net/weixin_46720804/article/details/115518454

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

BP神经网络

神经元模型
BP神经网络结构
BP神经网络算法
误差反向传播推导
BP算法总结

神经元模型

神经元模型如下：

$\sigma(x$ )为激活函数。

BP神经网络结构

$B P 神经网络结构$
图示BP神经网络相邻两层之间的各神经元相互连接，同一层的神经元不连接。

第一层称为输入层，最后一层称为输出层，中间各层称为隐层。

训练集 $D$

训练样本输入 $x=[x_1,x_2,...,x_{m^1}]$ ，样本输出 $y=[y_1,y_2,...,y_{m^L}]$

$m^k$ 为第 $k$ 层神经元的个数。

$w_{ji}^k$ 为第 $k - 1$ 层第 $i$ 个神经元连接第 $k$ 层第 $j$ 个结点的权值。

$y^k_j$ 为第 $k$ 层第 $j$ 个神经元的输出值，也是第 $k + 1$ 层的输入值， $k = 0$ 时， $y^0$ 即为训练样本输入的 $x$ 。

$b_j^k$ 为第 $k$ 层第 $j$ 个神经元的阈值。

$z^k_j$ 为第 $k$ 层第 $j$ 个神经元受到上一层各神经元的输出总和。

$\sigma(x)$ 为激活函数。

各变量之间的关系：
$\begin{aligned} z_j^k=&\sum_i^{m^{k-1}}{(w_{ji}^ky_i^{k-1}+b_j^k)}\\ \\ y_j^k=&\sigma(z_j^k),k=1,...,L\\ \\ y^0=&x，x\in{D} \end{aligned}$
对于激活函数，常用的有Sigmoid、ReLU等

$S i g m o i d 函数$

$R e L U 函数$

BP神经网络算法

训练集 $D$

随机初始化网络中的所有权值和阈值
$w h i l e$
　 $all(x,y)\in{D}$
　　计算各层输出值 $y^k,k=1,2,...,L-1$
　　计算各层权值和阈值的梯度
　　根据梯度更新权值和阈值
　 $e n d$
$u n t i l$ 到达终止条件　
$B P$ 算法的目标是最小化训练集上的累积误差
$\begin{aligned} E=&\frac{1}{m}\sum_l^D{J_l}\\ \\ J_l=&\frac{1}{2}\sum^{m^L}_{j=1}{(y^L_j-y_j)^2} \end{aligned}$

误差反向传播推导

BP算法通过反向传播更新权值来进行学习，对于训练样本 $x,y)_l$ ，神经网络输出为 $y^L$ ，误差函数为：
$\begin{aligned} J_l=&\frac{1}{2}\sum^{m^L}_{j=1}{(y^L_j-y_j)^2} \end{aligned}$
使用梯度下降法更新各层权值和阈值，即沿目标函数的负梯度方向更新权值，因此，神经网络权值修正量为：
$\begin{aligned} \Delta{w^k_{ji}}=-\eta{\frac{\partial{J}}{\partial{w^{k}_{ji}}}}\\ \\ \Delta{b^k_i}=-\eta{\frac{\partial{J}}{\partial{b^k_i}}}\\ \\ \eta\in(0,1),称为学习率 \end{aligned}$
下面进行推导。
对于输出层的神经元的权值：
$\begin{aligned} \frac{\partial{J}}{\partial{w^L_{ji}}}=&\frac{\partial{J}}{\partial{z^L_j}}\frac{\partial{z^L_j}}{\partial{w^L_{ji}}} \end{aligned}$
令
$\begin{aligned} d^L_j=&\frac{\partial{J}}{\partial{z^L_j}} \end{aligned}$
则
$\begin{aligned} d_j^L=&\frac{\partial{J}}{\partial{y^L_j}}\frac{\partial{y^L_j}}{\partial{z^L_j}}\\ \\ =&(y_j^L-y_j)\sigma'(z^L_j) \end{aligned}$ 又
$\begin{aligned} \frac{\partial{z^L_j}}{\partial{w^L_{ji}}}=&y^{L-1}_i \end{aligned}$
所以
$\begin{aligned} \frac{\partial{J_l}}{\partial{w^L_{ji}}}=&\frac{\partial{J_l}}{\partial{z^L_j}}\frac{\partial{z^L_j}}{\partial{w^L_{ji}}}\\ \\ =&d_j^Ly^{L-1}_i\\ \\ =&\frac{\partial{J_l}}{\partial{y^L_j}}\frac{\partial{y^L_j}}{\partial{z^L_j}}\frac{\partial{z^L_j}}{\partial{w^L_{ji}}}\\ \\ =&(y_j^L-y)\sigma'(z^L_j)y^{L-1}_i \end{aligned}$
对于输出层的神经元的阈值，与权值同理：
$\begin{aligned} \frac{\partial{J_l}}{\partial{b^L_j}}=&\frac{\partial{J_l}}{\partial{z^L_j}}\frac{\partial{z^L_j}}{\partial{b^L_j}} \end{aligned}$
由于
$\begin{aligned} \frac{\partial{z^L_j}}{\partial{b^L_j}}=&1 \end{aligned}$
所以
$\begin{aligned} \frac{\partial{J_l}}{\partial{b^L_j}}=&\frac{\partial{J_l}}{\partial{z^L_j}}\frac{\partial{z^L_j}}{\partial{b^L_j}}\\ \\ =&d^L_j\\ \\ =&(y_j^L-y)\sigma'(z^L_j) \end{aligned}$
对于隐层的神经元的权值：
以 $L - 1$ 层为例:
$\begin{aligned} \frac{\partial{J_l}}{\partial{w^{L-1}_{ji}}}=&\frac{\partial{J_l}}{\partial{z^{L-1}_j}}\frac{\partial{z^{L-1}_j}}{\partial{w^{L-1}_{ji}}} \end{aligned}$
同理，
$\begin{aligned} d^{L-1}_j=&\frac{\partial{J_l}}{\partial{z^{L-1}_j}}\\ \\ =&\frac{\partial{J_l}}{\partial{y^{L-1}_j}}\frac{\partial{y^{L-1}_j}}{\partial{z^{L-1}_j}}\\ \\ =&\frac{\partial{J_l}}{\partial{y^{L-1}_j}}\sigma'(z^L_j)\\ \\ \frac{\partial{z^{L-1}_j}}{\partial{w^{L-1}_{ji}}}=&y^{L-2}_i \end{aligned}$
因为
$\begin{aligned} J=&\frac{1}{2}\sum^{m^L}_{j=1}{(y^L_j-y_j)^2}\\ \\ y_j^L=&\sigma(\sum_i^{m^{L-1}}{(w_{ji}^ky_i^{L-1}+b_j^L)})\\ \end{aligned}$
神经网络是全连接，所以
$\begin{aligned} \frac{\partial{J_l}}{\partial{y^{L-1}_j}}=&\sum_{i=1}^{m^{L}}\frac{\partial{J}}{\partial{y^{L}_i}}\frac{\partial{y^{L}_i}}{\partial{y_{j}^{L-1}}}\\ \\ =&\sum_{i=1}^{m^{L}}\frac{\partial{J_l}}{\partial{y^{L}_i}}\frac{\partial{y^{L}_i}}{\partial{z_{i}^{L}}}\frac{\partial{z_{i}^{L}}}{\partial{y_{j}^{L-1}}}\\ \\ =&\sum_{i=1}^{m^{L}}d^L_iw^L_{ij} \end{aligned}$
所以，
$\begin{aligned} \frac{\partial{J_l}}{\partial{w^{L-1}_{ji}}}=&\frac{\partial{J_l}}{\partial{z^{L-1}_j}}\frac{\partial{z^{L-1}_j}}{\partial{w^{L-1}_{ji}}}\\ \\ =&\frac{\partial{J_l}}{\partial{y^{L-1}_j}}\frac{\partial{y^{L-1}_j}}{\partial{z^{L-1}_j}}\frac{\partial{z^{L-1}_j}}{\partial{w^{L-1}_{ji}}}\\ \\ =&d_j^{L-1}y_i^{L-2}\\ \\ =&\frac{\partial{J}}{\partial{y^{L-1}_j}}\sigma'(z^L_j)y^{L-2}_i\\ \\ =&\sum_{i=1}^{m^{L}}\frac{\partial{J_l}}{\partial{y^{L}_i}}\frac{\partial{y^{L}_i}}{\partial{z_{i}^{L}}}\frac{\partial{z_{i}^{L}}}{\partial{y_{j}^{L-1}}}\sigma'(z^L_j)y^{L-2}_i\\ \\ =&\sum_{i=1}^{m^{L}}d^L_iw^L_{ij}\sigma'(z^L_j)y^{L-2}_i \end{aligned}$
对于隐层的神经元的阈值，与权值同理
以L-1层为例：
$\begin{aligned} \frac{\partial{J_l}}{\partial{b^{L-1}_j}}=&\frac{\partial{J_l}}{\partial{z^{L-1}_j}}\frac{\partial{z^{L-1}_j}}{\partial{b^{L-1}_j}} \end{aligned}$
$\begin{aligned} \frac{\partial{z^{L-1}_j}}{\partial{b^{L-1}_j}}=1 \end{aligned}$
所以
$\begin{aligned} \frac{\partial{J_l}}{\partial{b^{L-1}_j}}=&\frac{\partial{J_l}}{\partial{z^{L-1}_j}}\frac{\partial{z^{L-1}_j}}{\partial{b^{L-1}_j}}\\ \\ =&d^{L-1}_j\\ =&\sum_{i=1}^{m^{L}}d^L_iw^L_{ij}\sigma'(z^L_j) \end{aligned}$
推广到第k层隐层的权值：
$\begin{aligned} \frac{\partial{J_l}}{\partial{w^{k}_{ji}}}=&\frac{\partial{J_l}}{\partial{z^{k}_j}}\frac{\partial{z^{k}_j}}{\partial{w^{k}_{ji}}}\\ \\ =&\frac{\partial{J_l}}{\partial{y^{k}_j}}\frac{\partial{y^{k}_j}}{\partial{z^{k}_j}}\frac{\partial{z^{k}_j}}{\partial{w^{k}_{ji}}}\\ \\ =&d_j^{k}y_i^{k-1}\\ \\ =&\frac{\partial{J_l}}{\partial{y^{k}_j}}\sigma'(z^{k}_j)y^{k-1}_i\\ \\ =&\sum_{i=1}^{m^{k+1}}\frac{\partial{J_l}}{\partial{y^{k+1}_i}}\frac{\partial{y^{k+1}_i}}{\partial{z_{i}^{k+1}}}\frac{\partial{z_{i}^{k+1}}}{\partial{y_{j}^{k}}}\sigma'(z^k_j)y^{k-1}_i\\ \\ =&\sum_{i=1}^{m^{k+1}}d^{k+1}_iw^{k+1}_{ij}\sigma'(z^k_j)y^{k-1}_i \end{aligned}$
第k层隐层的阈值：
$\begin{aligned} \frac{\partial{J_l}}{\partial{b^{k}_j}}=&\frac{\partial{J_l}}{\partial{z^{k}_j}}\frac{\partial{z^{k}_j}}{\partial{b^{k}_j}}\\ \\ =&d_j^{k}\\ \\ =&\sum_{i=1}^{m^{k+1}}d^{k+1}_iw^{k+1}_{ij}\sigma'(z^{k}_j) \end{aligned}$
根据上面的推导，更新权值和阈值
$\begin{aligned} w^k_{ji}\leftarrow{w^k_{ji}+\Delta{w^k_{ji}}}\\ \\ b^k_j\leftarrow{b^k_{j}+\Delta{b^k_{j}}}\\ \\ \end{aligned}$

BP算法总结

训练集 $D$
训练样本输入 $x=[x_1,x_2,...,x_{m^1}]$ ，样本输出 $y=[y_1,y_2,...,y_{m^L}]$

各层输出：
$\begin{aligned} z_j^k=&\sum_i^{m^{k-1}}{(w_{ji}^ky_i^{k-1}+b_j^k)}\\ \\ y_j^k=&\sigma(z_j^k)k=1,...,L\\ \\ y^0=&x，x\in{D} \end{aligned}$
最小化累积误差：
$\begin{aligned} E=&\frac{1}{m}\sum_l^D{J_l}\\ \\ J_l=&\frac{1}{2}\sum^{m^L}_{j=1}{(y^L_j-y_j)^2} \end{aligned}$
权值、阈值更新：
$\begin{aligned} \Delta{w^k_{ji}}=&-\eta{d^k_jy_i^{k-1}}\\ \\ \Delta{b^k_{j}}=&-\eta{d^k_j}\\ \\ d_j^L=&(y^L_j-y_j)\sigma'(z_j^L)\\ \\ d_j^k=&\sum_{i=1}^{m^{L}}d^L_iw^L_{ij}\sigma'(z_j^L),k\in\{1,...,L-1\} \end{aligned}$