动手学深度学习读书笔记-正向传播、反向传播和计算图

最新推荐文章于 2024-07-12 00:46:55 发布

wxl1999

最新推荐文章于 2024-07-12 00:46:55 发布

阅读量469

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wxl1999/article/details/95239451

版权

机器学习专栏收录该内容

20 篇文章 0 订阅

订阅专栏

正向传播、反向传播和计算图

正向传播

正向传播是指对神经网络沿着从输入层到输出层的顺序，依次计算并存储模型的中间变量（包括输出）。
为简单起见，假设输入是一个特征为 $\boldsymbol{x} \in \mathbb{R}^d$ 的样本，且不考虑偏差项，那么中间变量
$\boldsymbol{z} = \boldsymbol{W}^{(1)} \boldsymbol{x},$
其中 $\boldsymbol{W}^{(1)} \in \mathbb{R}^{h \times d}$ 是隐藏层的权重参数。把中间变量 $\boldsymbol{z} \in \mathbb{R}^h$ 输入按元素运算的激活函数 $\phi$ 后，将得到向量长度为 $h$ 的隐藏层变量
$\boldsymbol{h} = \phi (\boldsymbol{z}).$
隐藏层变量 $\boldsymbol{h}$ 也是一个中间变量。假设输出层参数只有权重 $\boldsymbol{W}^{(2)} \in \mathbb{R}^{q \times h}$ ，可以得到向量长度为 $q$ 的输出层变量
$\boldsymbol{o} = \boldsymbol{W}^{(2)} \boldsymbol{h}.$
假设损失函数为 $\ell$ ，且样本标签为 $y$ ，可以计算出单个数据样本的损失项
$\ell(\boldsymbol{o}, y).$
根据 $L_2$ 范数正则化的定义，给定超参数 $\lambda$ ，正则化项即
$\frac{\lambda}{2} \left(\|\boldsymbol{W}^{(1)}\|_F^2 + \|\boldsymbol{W}^{(2)}\|_F^2\right),$
其中矩阵的Frobenius范数等价于将矩阵变平为向量后计算 $L_2$ 范数。最终，模型在给定的数据样本上带正则化的损失为
$J = L + s .$

计算图

在这里插入图片描述

反向传播

反向传播依据微积分中的链式法则，沿着从输出层到输入层的顺序，依次计算并存储目标函数有关神经网络各层的中间变量以及参数的梯度。

训练深度学习模型

在模型参数初始化完成后，我们交替地进行正向传播和反向传播，并根据反向传播计算的梯度迭代模型参数。
既然我们在反向传播中使用了正向传播中计算得到的中间变量来避免重复计算，那么这个复用也导致正向传播结束后不能立即释放中间变量内存。这也是训练要比预测占用更多内存的一个重要原因。
另外需要指出的是，这些中间变量的个数大体上与网络层数线性相关，每个变量的大小跟批量大小和输入个数也是线性相关的，它们是导致较深的神经网络使用较大批量训练时更容易超内存的主要原因。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
动手学深度学习读书笔记-正向传播、反向传播和计算图

正向传播、反向传播和计算图正向传播正向传播是指对神经网络沿着从输入层到输出层的顺序，依次计算并存储模型的中间变量（包括输出）。为简单起见，假设输入是一个特征为x∈Rd\boldsymbol{x} \in \mathbb{R}^dx∈Rd的样本，且不考虑偏差项，那么中间变量z=W(1)x,\boldsymbol{z} = \boldsymbol{W}^{(1)} \boldsymbol{x...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。