误差逆传播算法公式理解及推导

思想在拧紧

已于 2023-01-29 18:36:03 修改

阅读量777

点赞数

分类专栏：机器学习文章标签： BP算法

于 2023-01-29 13:03:32 首次发布

本文链接：https://blog.csdn.net/what_how_why2020/article/details/128787700

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

前言：公式理解及推导参考自《机器学习》周志华 P101

BP网络

BP网络一般是指由误差逆传播（error BackPropagation, BP）算法训练的多层前馈神经网络。

给定训练集 $D=\left\{\left(\boldsymbol{x}_1, \boldsymbol{y}_1\right)\right.$ , $\left.\left(\boldsymbol{x}_2, \boldsymbol{y}_2\right), \ldots,\left(\boldsymbol{x}_m, \boldsymbol{y}_m\right)\right\}, \boldsymbol{x}_i \in \mathbb{R}^d, \boldsymbol{y}_i \in \mathbb{R}^l$ ，即输入示例由 $d$ 个属性描述，输出 $l$ 维实值向量。如下图所示，给出一个拥有 $d$ 个输入神经元、 $l$ 个输出神经元、 $q$ 个隐层神经元的多层前馈网络结构。

对训练例 $\left(\boldsymbol{x}_k, \boldsymbol{y}_k\right), k∈(1, m)$ ，假定神经网终的输出为 $\hat{\boldsymbol{y}}_k=\left(\hat{y}_1^k, \hat{y}_2^k, \ldots, \hat{y}_l^k\right)$ ，即 $\hat{y}_j^k=f\left(\beta_j-\theta_j\right)$ 。关于 $\hat{y}_j^k$ 的表达式来源于 MP 神经元模型，简单来说，当总输入超过阈值则输出一个信号，当总输入低于阈值会输出另一个信号。

网络在 $\left(\boldsymbol{x}_k, \boldsymbol{y}_k\right), k∈(1, m)$ 上的均方误差为 $E_k=\frac{1}{2} \sum_{j=1}^l\left(\hat{y}_j^k-y_j^k\right)^2$ ，此处 1/2 是为了后面求导方便。

BP网络及算法中变量符号

参数更新式

网络中有 $(d + l + 1) q + l$ 个参数需确定：输入层到隐层的 $\times q$ 个连接权、隐层到输出层的 $\times l$ 个连接权、 $q$ 个隐层神经元的阈值、 $l$ 个输出层神经元的阈值。以隐层到输出层的连接权 $w_{hj}$ 为例分析参数更新， $w_{hj}$ 参数更新估计式为：
$w_{hj}'=w_{hj}+ \Delta v = w_{hj}-\eta \frac{\partial E_k}{\partial w_{hj}}$
其中， $\eta \in (0, 1)$ ，成为学习率（learning rate）。
因为每次更新只考虑一个参数，所以 $E_k$ 可视为关于 $w_{hj}$ 的一元函数。若 $\frac{\partial E_k}{\partial w_{hj}}$ 为正值，说明 $w_{hj}$ 越大， $E_k$ 越大，为使 $E_k$ 尽可能小，所以应减去这个正的导数；若 $\frac{\partial E_k}{\partial w_{hj}}$ 为负值，说明 $w_{hj}$ 越大， $E_k$ 越小，为使 $E_k$ 尽可能小，所以应减去这个负的导数，增大 $w_{hj}$ 。

计算导数–链式法则

注意到 $w_{h j}$ 先影响到第 $j$ 个输出层神经元的输入值 $\beta_j$ ，再影响到其输出值 $\hat{y}_j^k$ ，然后影响到 $E_k$ ，有：
$\frac{\partial E_k}{\partial w_{h j}}=\frac{\partial E_k}{\partial \hat{y}_j^k} \cdot \frac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot \frac{\partial \beta_j}{\partial w_{h j}} .$
根据定义 $\beta_j = \sum_{h=1}^q w_{h j} b_h$ ，有
$\frac{\partial \beta_j}{\partial w_{h j}}=b_h$
计算 $\frac{\partial \mathrm{E}_{\mathrm{k}}}{\partial \hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}} \cdot \frac{\partial \hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}}{\partial \beta_{\mathrm{j}}}$ ：
$=\frac{\partial \mathrm{E}_{\mathrm{k}}}{\partial \hat{\mathbf{y}}_{\mathrm{j}}^{\mathrm{k}}} \cdot \frac{\partial\left[\mathrm{f}\left(\beta_{\mathrm{j}}-\theta_{\mathrm{j}}\right)\right]}{\partial \beta_{\mathrm{j}}}=\frac{\partial \mathrm{E}_{\mathrm{k}}}{\partial \hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}} \cdot \mathrm{f}^{\prime}\left(\beta_{\mathrm{j}}-\theta_{\mathrm{j}}\right)=\frac{\partial \mathrm{E}_{\mathrm{k}}}{\partial \hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}} \cdot \mathrm{f}\left(\beta_{\mathrm{j}}-\theta_{\mathrm{j}}\right) \times\left[1-\mathrm{f}\left(\beta_{\mathrm{j}}-\theta_{\mathrm{j}}\right)\right] = \frac{\partial \mathrm{E}_{\mathrm{k}}}{\partial \hat{\mathrm{y}}_{\mathrm{k}}^{\mathrm{k}}} \cdot \hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}\left(1-\hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}\right) \\ =\frac{\partial\left[\frac{1}{2} \sum_{\mathrm{j}=1}^1\left(\hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}-\mathrm{y}_{\mathrm{j}}^{\mathrm{k}}\right)^2\right]}{\partial \hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}} \cdot \hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}\left(1-\hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}\right)=\frac{1}{2} \times 2\left(\hat{y}_{\mathrm{j}}^{\mathrm{k}}-\hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}\right) \times 1 \times \hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}\left(1-\hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}\right)=\left(\hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}-\hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}\right) \hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}\left(1-\hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}\right)$

上式计算 $\mathrm{f}^{\prime}\left(\beta_{\mathrm{j}}-\theta_{\mathrm{j}}\right)$ 时，涉及 Sigmoid 函数 $f (x)$ 的导数： $f^{\prime}(x)=f(x)(1-f(x))$

再令
$g_j=-\frac{\partial \mathrm{E}_{\mathrm{k}}}{\partial \beta_{\mathrm{j}}}=-\frac{\partial \mathrm{E}_{\mathrm{k}}}{\partial \hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}} \cdot \frac{\partial \hat{\mathrm{y}}_{\mathrm{j}}^{\mathrm{k}}}{\partial \beta_{\mathrm{j}}}$
综上，得到关于 $w_{hj}$ 的更新公式为：
$\Delta w_{hj} =-\eta \frac{\partial E_k}{\partial w_{hj}}=-\eta \frac{\partial E_k}{\partial \hat{y}_j^k} \cdot \frac{\partial \hat{y}_j^k}{\partial \beta_j} \cdot \frac{\partial \beta_j}{\partial w_{h j}}= -\eta (-g_j) b_h= \eta g_j b_h$
同理可得 $\theta_j$ 、 $v_{ih}$ 、 $\gamma_h$ 的更新公式。需注意的是，在计算过程中，确定链式求导公式是关键。

补充 $f(x)=\frac{1}{1+e^{-x}}$ 的导数：
$f'(x)=\frac{e^{-x}}{(1+e^{-x})^2} = \frac{1+e^{-x}-1}{(1+e^{-x})^2}= {\frac{1}{1+e^{-x}} - \frac{1}{(1+e^{-x})^2}}=f(x)-(f(x))^2=f(x)[1-f(x)]$