BP反向传播神经网络的公式推导

zcongfly

于 2023-05-04 15:13:21 发布

阅读量276

点赞数

文章标签：神经网络机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44624036/article/details/130487507

版权

假设我们有以下三层神经网络：

输入层：2个神经元
隐藏层：3个神经元
输出层：2个神经元

假设使用sigmoid函数作为激活函数，定义如下：

$\sigma(x) = \frac{1}{1+e^{-x}}$

现在，我们来推导反向传播算法的每一步公式。

Step 1: 前向传播

对于一个样本 $\mathbf{x}$ ，前向传播计算如下：

$z_1 = \mathbf{w}_1^{\top}\mathbf{x} + \mathbf{b}_1$

$h_1 = \sigma(z_1)$

$z_2 = \mathbf{w}_2^{\top}\mathbf{h}_1 + \mathbf{b}_2$

$h_2 = \sigma(z_2)$

其中， $\mathbf{w}_1$ 和 $\mathbf{w}_2$ 是权重矩阵， $\mathbf{b}_1$ 和 $\mathbf{b}_2$ 是偏置向量， $\sigma(\cdot)$ 是sigmoid函数。

Step 2: 计算误差

我们假设要最小化平方损失函数：

$\frac{1}{2}\sum_{i=1}^{m}(\hat{y}_i - y_i)^2$

其中， $m$ 是样本数量， $\hat{y}_i$ 和 $y_i$ 分别是第 $i$ 个样本的预测值和真实值。对于本例， $m = 1$ 。

因此，我们可以计算输出层的误差项 $\delta_2$ ：

$\delta_2 = (\hat{y} - y) \cdot \sigma'(z_2) = (\hat{y} - y) \cdot h_2 \cdot (1 - h_2)$

其中， $\hat{y}$ 是预测值， $y$ 是真实值， $\sigma'(\cdot)$ 表示sigmoid函数的导数。

Step 3: 反向传播

接下来，我们需要通过反向传播算法计算每一层的误差项 $\delta$ 。

对于隐藏层，我们可以使用以下公式计算：

$\delta_1 = \mathbf{W}_2 \delta_2 \cdot \sigma'(z_1) = \mathbf{W}_2 \delta_2 \cdot h_1 \cdot (1 - h_1)$

其中， $\mathbf{W}_2$ 是权重矩阵除去偏置项后的部分。

Step 4: 计算梯度

最后，我们可以使用误差项 $\delta$ 计算梯度并更新参数。具体地，我们可以使用以下公式计算权重和偏置的梯度：

$\frac{\partial L}{\partial \mathbf{w}_2} = \mathbf{h}_1 \delta_2$

$\frac{\partial L}{\partial \mathbf{b}_2} = \delta_2$

$\frac{\partial L}{\partial \mathbf{w}_1} = \mathbf{x} \delta_1$

$\frac{\partial L}{\partial \mathbf{b}_1} = \delta_1$

其中， $\mathbf{h}_1$ 和 $\mathbf{x}$ 分别是隐藏层输出和输入层输入， $\delta_1$ 和 $\delta_2$ 是误差项。

最后，我们可以使用梯度下降法或其他优化算法来更新权重和偏置。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

zcongfly 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。