Chapter 1 预备知识——深度学习中的导数

薛定谔的虎770

已于 2024-03-05 13:43:05 修改

阅读量2.1k

点赞数 30

分类专栏：学习深度学习文章标签：深度学习人工智能

于 2024-03-05 13:30:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_65750743/article/details/136476147

版权

本文介绍了深度学习中导数的重要性，包括标量、向量和矩阵的导数计算规则，以及向量链式法则的应用。重点讲解了如何通过计算图和PyTorch的autograd模块实现自动求导，展示了从简单示例到实际应用的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

深度学习中的导数

在深度学习的训练过程中，我们经常需要计算导数。导数是函数在某一点的切线斜率，它可以告诉我们函数在某一点的变化率。在深度学习中，我们经常需要计算损失函数对模型参数的导数，以便调整模型参数，使得模型的预测值更接近真实值。在这个notebook中，我们将总结深度学习中常用的一些导数计算规则。在此之前，我们应该具有微积分的基本知识，基本掌握简单的标量求导和链式法则。主要目标是要能够清楚求导过程中的张量形状变化。

目录

深度学习中的导数

1 向量导数

在深度学习中，我们最常使用的数据结构就是张量，因此，我们需要从标量的导数去泛化，推广到向量和矩阵的导数，进而理解张量的导数。在这里，我们总结一些常用的向量导数计算规则，也作为张量导数的引入。

1.1 向量与标量间的导数

标量对向量求导
设 $y$ 是一个标量， $x$ 是一个向量，我们规定 $y$ 对 $x$ 的导数是一个行向量，它的第 $i$ 个元素是 $y$ 对 $x_i$ 的偏导数（具体原因到后面就可以理解了）。如图：
** 向量对标量求导**
设 $y$ 是一个向量， $x$ 是一个标量，我们规定 $y$ 对 $x$ 的导数是一个列向量，它的第 $i$ 个元素是 $y_i$ 对 $x$ 的偏导数。如图：

1.2 向量与向量、矩阵间的导数

** 向量对向量求导**
设 $y$ 是一个向量， $x$ 是一个向量，我们规定 $y$ 对 $x$ 的导数是一个矩阵，它的第 $i$ 行第 $j$ 列的元素是 $y_i$ 对 $x_j$ 的偏导数。
我们可以把向量对向量的导数先看作是标量对向量的导数，即 $y$ 的各个分量对 $x$ 求导，这样我们就先得到了一个列向量。该列向量的各个元素再对 $x$ 求导，由于这是标量对向量的导数，所以每一行就得到了一个行向量，把这些行向量排列起来，就得到了一个矩阵。
向量对矩阵求导、矩阵对矩阵求导
可以想象，我们会得到一个高阶张量。

2 向量链式法则

在深度学习中，我们经常需要计算复合函数的导数，这就需要用到链式法则。在这里，我们总结一下向量链式法则。
其实向量的链式法则和标量的链式法则是一样的，只是在求导的过程中不再是从前的标量对标量的求导，而是出现了有向量参与的求导，即链式求导法则同样适用于向量，只是需要考虑向量与标量和向量间的求导，我们可以举一个例子来说明：

设 $x, w$ $\in \mathbb{R}^{n}$ $y$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。