深度学习模型的前馈运算与反馈运算

最新推荐文章于 2023-06-03 01:53:28 发布

最新推荐文章于 2023-06-03 01:53:28 发布

阅读量1k

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_45884316/article/details/117537328

版权

深度学习专栏收录该内容

10 篇文章 5 订阅

订阅专栏

前馈运算

假设现在网络的参数收敛到 $\omega^{1}, \ldots, \omega^{L-1}$ ，进行feed- forward，将输入 $x_1$ 送入网络，之后经过第一层操作 $\omega^1$ 得到 $x_2$ ，依次类推……直到得到输出 $x_L$ ，

反馈运算

深度学习模型通常采用随机梯度下降法（SGD）和误差反向传播（error back propogation）进行模型参数更新。

每层操作主要对应两部分：

1.用于参数更新的 $\frac{\partial z}{\partial \boldsymbol{\omega}^{i}}$ ，是误差关于参数 ${\omega}^{i}$ 的导数
$\omega ^ { i } \leftarrow \omega ^ { i } - \eta \frac { \partial z } { \partial \omega^ { i } } \tag{1}$
$\eta$ 是每次SGD的步长（一般随epoch的增大而减小）

2.用于误差向前层的反向传播 $\frac{\partial z}{\partial \boldsymbol{x}^{i}}$ ，是误差关于输入 $x^i$ 的导数。

下面，我们以第 $i$ 层参数更新为例，需要计算 $\frac{\partial z}{\partial \boldsymbol{\omega}^{i}}$ 和 $\frac{\partial z}{\partial \boldsymbol{x}^{i}}$ ，根据链式法则：
$\frac{\partial z}{\partial\left(\operatorname{vec}\left(\boldsymbol{\omega}^{i}\right)^{\top}\right)}=\frac{\partial z}{\partial\left(\operatorname{vec}\left(\boldsymbol{x}^{i+1}\right)^{\top}\right)} \cdot \frac{\partial \operatorname{vec}\left(\boldsymbol{x}^{i+1}\right)}{\partial\left(\operatorname{vec}\left(\boldsymbol{\omega}^{i}\right)^{\top}\right)} \tag{2}$

$\frac{\partial z}{\partial\left(\operatorname{vec}\left(\boldsymbol{x}^{i}\right)^{\top}\right)}=\frac{\partial z}{\partial\left(\operatorname{vec}\left(\boldsymbol{x}^{i+1}\right)^{\top}\right)} \cdot \frac{\partial \operatorname{vec}\left(\boldsymbol{x}^{i+1}\right)}{\partial\left(\operatorname{vec}\left(\boldsymbol{x}^{i}\right)^{\top}\right)} \tag{3}$

对于(2)和(3)式右侧所需要的数，由第 $i + 1$ 层的(3)式已经得到的有 $\frac{\partial z}{\partial \boldsymbol{x}^{i+1}}$ ，即两式+号左边的式子。同时，在前馈运算时的第 $i$ 层， $x^i$ 经 $w^i$ 的作用得到 $x^{i+1}$ ，反向求导可以直接得到 $\frac{\partial \operatorname{vec}\left(\boldsymbol{x}^{i+1}\right)}{\partial\left(\operatorname{vec}\left(\boldsymbol{\omega}^{i}\right)^{\top}\right)}$ 和 $\frac{\partial \operatorname{vec}\left(\boldsymbol{x}^{i+1}\right)}{\partial\left(\operatorname{vec}\left(\boldsymbol{x}^{i}\right)^{\top}\right)}$ ，即两式+号右边的式子。
再根据(1)式更新 $i$ 层的参数，并将 $\frac{\partial z}{\partial \boldsymbol{x}^{i+1}}$ 作为误差传到 $i - 1$ 层。不断循环直到第1层，完成一个mini-batch的参数更新。

在这里插入图片描述

魏秀参《解析卷积神经网络——深度学习实践手册》

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
深度学习模型的前馈运算与反馈运算

前馈运算假设现在网络的参数收敛到ω1,…,ωL−1\omega^{1}, \ldots, \omega^{L-1}ω1,…,ωL−1，进行feed- forward，将输入x1x_1x1送入网络，之后经过第一层操作ω1\omega^1ω1得到x2x_2x2，依次类推……直到得到输出xLx_LxL，反馈运算深度学习模型通常采用随机梯度下降法（SGD）和误差反向传播（error back propogation）进行模型参数更新。每层操作主要对应两部分： 1.用于参数更新的 ∂z∂ωi\fra
复制链接

扫一扫