多层感知机BP算法推导

最新推荐文章于 2024-07-27 14:44:38 发布

winycg

最新推荐文章于 2024-07-27 14:44:38 发布

阅读量2.9k

点赞数 1

分类专栏： python机器学习

本文链接：https://blog.csdn.net/winycg/article/details/85712266

版权

python机器学习专栏收录该内容

37 篇文章 7 订阅

订阅专栏

前向计算

含有数据输入层，1个以上隐藏层，1个输出层。各层神经元之间全连接，同一层的神经元之间无连接。
在这里插入图片描述

在图中， $z^{(l)}=W^{(l)}\cdot a^{(l-1)}+b^{(l)}\\ a^{(l)}=f^{(l)}(z^{(l)})$
其中 $f(\cdot)$ 是激励函数， $a$ 是该层的输出值
变量关系：
$z^{1}=g_{1}(x,W^{1})\\ z^{2}=g_{2}(z^{1},W^{2})\\ \cdots\\ z^{l-1}=g_{l-1}(z^{l-2},W^{l-1})\\ z^{l}=g_{l}(z^{l-1},W^{l})\\ z^{l+1}=g_{l+1}(z^{l},W^{l+1})\\ \cdots\\ z^{L}=g_{L}(z^{L-1},W^{L})\\ y=f_{L}(z^{L})\\ J(W,y)$
变量依赖：
$J (W, y)$ 与 $x$ 的依赖关系： $J(W,y)=J(W,f(g_{L}(...g_{2}(g_{1}(x,W^{1}),W^{2})...,W^{L}))$
$J (W, y)$ 与 $z^{1}$ 的依赖关系： $J(W,y)=J(W,f(g_{L}(...g_{2}(z^{1},W^{2})...,W^{L}))$
$J (W, y)$ 与 $z^{2}$ 的依赖关系： $J(W,y)=J(W,f(g_{L}(..g_{3}(z^{2},W^{3})...,W^{L}))$
… …
$J (W, y)$ 与 $z^{l}$ 的依赖关系： $J(W,y)=J(W,f(g_{L}(..g_{l+1}(z^{l},W^{l+1})...,W^{L}))$

反向传播

目标是最小化损失函数，通过梯度下降：
$W^{(l)}=W^{(l)}-\alpha \frac{\partial J(W,\bm{b})}{\partial W^{(l)}} =W^{(l)}-\alpha \frac{\partial \frac{1}{N}\sum_{i=1}^{N}J(W,\bm{b};\bm{x}^{(i)},y^{(i)})}{\partial W^{(l)}}\\ \bm{b}^{(l)}=\bm{b}^{(l)}-\alpha \frac{\partial J(W,\bm{b})}{\partial \bm{b}^{(l)}} =\bm{b}^{(l)}-\alpha \frac{\partial \frac{1}{N}\sum_{i=1}^{N}J(W,\bm{b};\bm{x}^{(i)},y^{(i)})}{\partial \bm{b}^{(l)}}$
局部梯度迭代：
在这里插入图片描述
第 $l$ 层 $z^{l}$ 的梯度为 $\delta^{(l)}$ :
$\delta^{(l)}=\frac{\partial J(W,b;x,y)}{\partial z^{(l)}}=\frac{\partial z^{(l+1)}}{\partial z^{(l)}}\cdot \frac{\partial J(W,b;x,y)}{\partial z^{(l+1)}}\\ =\frac{\partial a^{(l)}}{\partial z^{(l)}}\cdot \frac{\partial z^{(l+1)}}{\partial a^{(l)}}\cdot \frac{\partial J(W,b;x,y)}{\partial z^{(l+1)}}\\ =\frac{\partial a^{(l)}}{\partial z^{(l)}}\cdot \frac{\partial z^{(l+1)}}{\partial a^{(l)}}\cdot \delta^{(l+1)}$
上述的形式是矩阵优化的形式，下面求具体的某一个连接参数的优化迭代式：
第 $l + 1$ 层的梯度 $\delta^{(l+1)}$ 已知，求此时的 $l$ 层的梯度 $\delta^{(l)}$
在这里插入图片描述对于第 $j$ 个神经元输出值 $z_{j}^{(l+1)}=\sum_{i}a_{i}^{(l)}w_{ij}^{(l+1)}=\sum_{i}f_{i}^{(l)}(z_{i}^{(l)})w_{ij}^{(l+1)}$ ，

由上式可得到：
$\frac{\partial z_{j}^{(l+1)}}{\partial z_{i}^{(l)}}=\frac{\partial a_{i}^{l}}{\partial z_{i}^{(l)}}\cdot \frac{\partial z_{j}^{(l+1)}}{\partial a_{i}^{(l)}}=f_{i}^{'(l)}(z_{i}^{(l)})w_{ij}^{(l+1)}$
第 $l$ 层第 $i$ 个输出值 $z_{i}^{(l)}$ 的梯度为：
$\delta_{i}^{(l)}=\frac{\partial L}{\partial z_{i}^{(l)}}=\sum_{j}\frac{\partial z_{j}^{(l+1)}}{\partial z_{i}^{(l)}}\frac{\partial L}{\partial z_{j}^{(l+1)}}=\sum_{j}\frac{\partial z_{j}^{(l+1)}}{\partial z_{i}^{(l)}}\delta_{j}^{(l+1)}\\ =\sum_{j}f_{i}^{'(l)}(z_{i}^{(l)})w_{ij}^{(l+1)}\delta_{j}^{(l+1)}=f_{i}^{'(l)}(z_{i}^{(l)})\sum_{j}w_{ij}^{(l+1)}\delta_{j}^{(l+1)}$
最后一层输出层的梯度为： $\delta_{o}^{(L)}=\frac{\partial L}{\partial z_{o}^{(L)}}=\frac{\partial a_{o}^{L}}{\partial z_{o}^{(L)}}\frac{\partial L}{\partial a_{o}^{L}}=f_{o}^{'(L)}(z_{0}^{(L)})\frac{\partial L}{\partial a_{o}^{L}}$
梯度更新沿着网络反向计算：
在这里插入图片描述
求解 $z_{i}^{(l)}$ 对应的权重 ${w_{ki}^{(l)}\}_{k=1}^{K}(K$ 表示 $l - 1$ 层的神经元个数)和偏置 $b_{i}^{(l)}$ 的梯度:
$\frac{\partial J}{\partial w_{ki}^{(l)}}=\frac{\partial z_{i}^{(l)}}{\partial w_{ki}^{(l)}}\frac{\partial J}{\partial z_{i}^{(l)}}=a_{k}^{(l-1)}\delta_{i}^{(l)}\\ \ \\ \frac{\partial J}{\partial b_{i}^{(l)}}=\frac{\partial z_{i}^{(l)}}{\partial b_{i}^{(l)}}\frac{\partial J}{\partial z_{i}^{(l)}}=\delta_{i}^{(l)}$
可总结出BP算法的一般步骤。

MLP的BP算法的步骤

（1）前向计算，并记录 $z_{i}^{(l)}$
（2）反向计算 $z_{i}^{(l)}$ 的梯度 $\delta_{i}^{(l)}$ :
先计算输出层： $\delta_{o}^{L}=f_{o}^{'(L)}(z_{0}^{(L)})\frac{\partial L}{\partial a_{o}^{L}}$
从后向前依次计算：
$\delta_{i}^{(l)}=f_{i}^{'(l)}(z_{i}^{(l)})\sum_{j}w_{ij}^{(l+1)}\delta_{j}^{(l+1)}$
（3）计算权重和偏置参数的梯度：
$\frac{\partial J}{\partial w_{ki}^{(l)}}=\frac{\partial z_{i}^{(l)}}{\partial w_{ki}^{(l)}}\frac{\partial J}{\partial z_{i}^{(l)}}=a_{k}^{(l-1)}\delta_{i}^{(l)}\\ \ \\ \frac{\partial J}{\partial b_{i}^{(l)}}=\frac{\partial z_{i}^{(l)}}{\partial b_{i}^{(l)}}\frac{\partial J}{\partial z_{i}^{(l)}}=\delta_{i}^{(l)}$