跟着GPT学习——反向传播演算（隐藏层梯度推导）

DarcyInCode

已于 2024-06-21 10:55:53 修改

阅读量838

点赞数 21

分类专栏：跟着GPT学习-AI系列文章标签： gpt 学习机器学习

于 2024-06-20 23:26:40 首次发布

本文链接：https://blog.csdn.net/weixin_44465920/article/details/139837071

版权

跟着GPT学习-AI系列专栏收录该内容

10 篇文章 0 订阅

订阅专栏

我觉得GPT老师的语言功底比大多数的博客主要好（包括我自己），阅读起来更易理解，而且哪里不明白还可以直接问gpt老师，孜孜不倦，尽心尽责，全天待命，究极贴心。有这么厉害的一个老师，不学习简直暴殄天物。

于是乎我准备立一个flag，挑战跟着GPT老师学习365天，每天我都会整理自己的学习心得和脉络（文字大部分都是GPT直接生成的，我觉得比我自己写肯定好多了）感谢gpt老师！跪谢

全系列文章：跟着GPT学习-AI系列

前一篇文章整理了单个神经元输出层的权重推导，接下来将整理单个神经元隐藏层的权重推导。

🤖 推导隐藏层的权重更新公式

假设隐藏层只有一个神经元，我们将基于此单个隐藏层神经元推导其梯度。这将有助于理解反向传播算法在单个神经元情况下的工作机制。

隐藏层的梯度 $\frac{\partial C}{\partial a^{(l)}}$ 递推公式:
对于任意隐藏层 $l$ ，使用链式法则递推计算梯度：
$\frac{\partial C}{\partial a^{(l)}} = \frac{\partial C}{\partial z^{(l+1)}} \cdot \frac{\partial z^{(l+1)}}{\partial a^{(l)}}$
由于：
$\frac{\partial z^{(l+1)}}{\partial a^{(l)}} = w^{(l+1)}$
所以：
$\frac{\partial C}{\partial a^{(l)}} = \frac{\partial C}{\partial z^{(l+1)}} \cdot w^{(l+1)}$

隐藏层加权输入 $\frac{\partial C}{\partial z^{(l)}}$ 的梯度:
$\frac{\partial C}{\partial z^{(l)}} = \frac{\partial C}{\partial a^{(l)}} \cdot \sigma'(z^{(l)})$
代入上一步结果：
$\frac{\partial C}{\partial z^{(l)}} = \left( \frac{\partial C}{\partial z^{(l+1)}} \cdot w^{(l+1)} \right) \cdot \sigma'(z^{(l)})$

隐藏层权重 $\frac{\partial C}{\partial w^{(l)}}$ 的梯度:
$\frac{\partial C}{\partial w^{(l)}} = \frac{\partial C}{\partial z^{(l)}} \cdot \frac{\partial z^{(l)}}{\partial w^{(l)}}$
$\frac{\partial z^{(l)}}{\partial w^{(l)}} = a^{(l-1)}$
所以：
$\frac{\partial C}{\partial w^{(l)}} = \frac{\partial C}{\partial z^{(l)}} \cdot a^{(l-1)} = \left( \frac{\partial C}{\partial z^{(l+1)}} \cdot w^{(l+1)} \right) \cdot \sigma'(z^{(l)}) \cdot a^{(l-1)}$

📈 对于权重w的最终梯度公式

对于任意隐藏层 $l$ 中的权重 $w^{(l)}$ ，梯度公式为：
$\frac{\partial C}{\partial w^{(l)}} = \left( \frac{\partial C}{\partial z^{(l+1)}} \cdot w^{(l+1)} \right) \cdot \sigma'(z^{(l)}) \cdot a^{(l-1)}$
对于输出层的权重梯度公式为：
$\frac{\partial C}{\partial w^{(L)}} = \left( a^{(L)}-y\right) \cdot \sigma'(z^{(L)}) \cdot a^{(L-1)}$

对于偏置量b的最终梯度公式：

由于 $Z^{(L)} = w^{(L)} \cdot a^{(L-1)} + b^{(L)}$

所以将上面公式中的z对于w求导结果 $a^{(L-1)}$ 都换成z对于b求导的1即可。
所以：
对于任意隐藏层 $l$ 中的权重 $b^{(l)}$ ，梯度公式为：
$\frac{\partial C}{\partial w^{(l)}} = \left( \frac{\partial C}{\partial z^{(l+1)}} \cdot w^{(l+1)} \right) \cdot \sigma'(z^{(l)})$
对于输出层的权重梯度公式为：
$\frac{\partial C}{\partial w^{(L)}} = \left( a^{(L)}-y\right) \cdot \sigma'(z^{(L)})$

多个神经元的通用梯度公式

在这里插入图片描述

对于隐藏层中具有多个神经元的情况，通用梯度公式如下：

1. 对于任意隐藏层 $l$ 中的权重 $w_{ij}^{(l)}$ ，梯度公式为：

$\frac{\partial C}{\partial w_{ij}^{(l)}} = \left( \sum_{k} \frac{\partial C}{\partial z_k^{(l+1)}} \cdot w_{jk}^{(l+1)} \right) \cdot \sigma'(z_j^{(l)}) \cdot a_i^{(l-1)}$

2. 对于输出层的权重 $w_{ij}^{(L)}$ ，梯度公式为：

$\frac{\partial C}{\partial w_{ij}^{(L)}} = (a_j^{(L)} - y_j) \cdot \sigma'(z_j^{(L)}) \cdot a_i^{(L-1)}$

3. 对于任意隐藏层 $l$ 中的偏置 $b_j^{(l)}$ ，梯度公式为：

$\frac{\partial C}{\partial b_j^{(l)}} = \left( \sum_{k} \frac{\partial C}{\partial z_k^{(l+1)}} \cdot w_{jk}^{(l+1)} \right) \cdot \sigma'(z_j^{(l)})$

4. 对于输出层的偏置 $b_j^{(L)}$ ，梯度公式为：

$\frac{\partial C}{\partial b_j^{(L)}} = (a_j^{(L)} - y_j) \cdot \sigma'(z_j^{(L)})$

DarcyInCode

关注

21
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
跟着GPT学习——反向传播演算（隐藏层梯度推导）

我觉得GPT老师的语言功底比大多数的博客主要好（包括我自己），阅读起来更易理解，而且哪里不明白还可以直接问gpt老师，孜孜不倦，尽心尽责，全天待命，究极贴心。有这么厉害的一个老师，不学习简直暴殄天物。跪谢前一篇文章整理了单个神经元输出层的权重推导，接下来将整理单个神经元隐藏层的权重推导。
复制链接

扫一扫