神经翻译笔记3扩展a. 深度学习的矩阵微积分基础

最新推荐文章于 2022-02-28 16:27:19 发布

TimsonShi

最新推荐文章于 2022-02-28 16:27:19 发布

阅读量446

点赞数

分类专栏：神经翻译笔记文章标签：矩阵微分

本文链接：https://blog.csdn.net/xacecaSK2/article/details/89314999

版权

这篇博客介绍了深度学习中矩阵微积分的基础知识，包括雅可比矩阵、链式法则及其在神经网络损失函数梯度计算中的应用，强调了矩阵微积分在理解并优化模型中的重要性。

摘要由CSDN通过智能技术生成

文章目录

神经翻译笔记3扩展a. 深度学习的矩阵微积分基础

神经翻译笔记3扩展a. 深度学习的矩阵微积分基础

写在前面：矩阵微积分是深度学习的数学基础之一，但是这部分内容在大学计算机系（及相关非数学类专业）本科几乎没有介绍，想要了解全凭自学。我之前看过的比较好的资料有三个：维基百科的Matrix Calculus词条、The Matrix Cookbook和Towser的《机器学习中的矩阵/向量求导》。然而前两个都是英文资料，而且主要重视结论，可以当做字典用，但是看完总有点“知其然不知其所以然”的感觉（维基词条似乎有简单的计算过程介绍，但是还是有点简略）；Towser大神的文章写得很不错，但是我数学较差，看到张量相关的部分还是觉得有点脑子转不过来

最近这几天我整理自己的微博收藏时，无意间发现北邮陈光老师（爱可可爱生活@微博）曾经推荐过一篇文章：Terence Parr和Jeremy Howard合作的The Matrix Calculus You Need For Deep Learning，感觉比较符合我的需求（再次证明收藏过的东西如果不回顾就是白收藏），相对Towser的文章更基础一点。这篇博客就是我阅读该论文的一些摘要

预备知识

对于一元函数的导数，存在如下几条规则（以下均认为 $x$ 是自变量）：

常数函数的导数为0： $\rightarrow df/dx = 0$
常量相乘法则： $c\frac{df}{dx}$
幂函数求导法则： $x^n \rightarrow \frac{df}{dx} = nx^{n-1}$
加法法则： $\frac{d}{dx}(f(x) + g(x)) = \frac{df}{dx} + \frac{dg}{dx}$
减法法则： $\frac{d}{dx}(f(x) - g(x)) = \frac{df}{dx} - \frac{dg}{dx}$
乘法法则： $\frac{d}{dx}(f(x)\cdot g(x)) = f(x)\cdot \frac{dg}{dx} + \frac{df}{dx}\cdot g(x)$
链式法则： $\frac{d}{dx}(f(g(x))) = \frac{df(u)}{du}\cdot \frac{du}{dx}$ ，若令 $u = g (x)$

对于二元函数，需要引入偏导数的概念。假设函数为 $f (x, y)$ ，求函数对 $x$ 或 $y$ 的偏导数时，将另一个变量看作是常量（对于多元函数，求对某个变量的偏导数时，将其它所有变量都视为常量）。求得的偏导数可以组合成为梯度，记为 $\nabla f(x,y)$ 。即
$\nabla f(x,y) = \left[\begin{matrix}\frac{\partial f(x,y)}{\partial x} \\ \frac{\partial f(x,y)}{\partial y}\end{matrix}\right]$
(注意：原文里梯度表示成了一个行向量，并说明他们使用了numerator layout。但是这样会使得标量对向量的微分结果与该向量形状相异，也与主流记法相左。因此本文记录时做了转换，使用主流的denominator layout记法)

矩阵微积分

同一个函数对不同变量求偏导的结果可以组成称为梯度，多个函数对各变量求偏导的结果则可以组合成一个矩阵，称为雅可比矩阵（Jacobian matrix）。例如如果有函数 $f, g$ ，两者各自的梯度可以组合为
$\left[\begin{matrix}\nabla^\mathsf{T} f(x,y) \\ \nabla^\mathsf{T} g(x, y)\end{matrix}\right]$

雅可比矩阵的泛化

可以将多元变量组合成一个向量： $f(x_1, x_2, \ldots, x_n) = f(\boldsymbol{x})$ （本文认为所有向量都是 $\times 1$ 维的，即
$\boldsymbol{x} = \left[\begin{matrix}x_1 \\ x_2 \\ \vdots \\ x_n\end{matrix}\right]$
）假设有 $m$ 个函数分别向量 $\boldsymbol{x}$ 计算得出一个标量，即
$\begin{aligned} y_1 &= f_1(\boldsymbol{x}) \\ y_2 &= f_2(\boldsymbol{x}) \\ &\vdots \\ y_m &= f_m(\boldsymbol{x}) \end{aligned}$
可以简记为
$\boldsymbol{y} = \boldsymbol{f}(\boldsymbol{x})$
$\boldsymbol{y}$ 对 $\boldsymbol{x}$ 求导的结果就是将每个函数对 $\boldsymbol{x}$ 的导数堆叠起来得到的雅可比矩阵：
$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}} = \left[\begin{matrix}\frac{\partial}{\partial x_1}f_1(\boldsymbol{x}) & \frac{\partial}{\partial x_2}f_1(\boldsymbol{x}) & \cdots & \frac{\partial}{\partial x_n}f_1(\boldsymbol{x})\\ \frac{\partial}{\partial x_1}f_2(\boldsymbol{x}) & \frac{\partial}{\partial x_2}f_2(\boldsymbol{x}) & \cdots & \frac{\partial}{\partial x_n}f_2(\boldsymbol{x})\\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial}{\partial x_1}f_m(\boldsymbol{x}) & \frac{\partial}{\partial x_2}f_m(\boldsymbol{x}) & \cdots & \frac{\partial}{\partial x_n}f_m(\boldsymbol{x})\\ \end{matrix}\right]$

两向量间逐元素运算的导数

假设 $\bigcirc$ 是一个对两向量逐元素进行计算的操作符（例如 $\bigoplus$ 是向量加法，就是两个向量逐元素相加），则对于 $\boldsymbol{y} = \boldsymbol{f}(\boldsymbol{w}) \bigcirc \boldsymbol{g}(\boldsymbol{x})$ ，假设 $n = m = ∣ y ∣ = ∣ w ∣ = ∣ x ∣$ ，可以做如下展开
$\left[\begin{matrix}y_1 \\ y_2 \\ \vdots \\ y_n\end{matrix}\right] = \left[\begin{matrix} f_1(\boldsymbol{w}) \bigcirc g_1(\boldsymbol{x}) \\ f_2(\boldsymbol{w}) \bigcirc g_2(\boldsymbol{x}) \\ \vdots \\ f_n(\boldsymbol{w}) \bigcirc g_n(\boldsymbol{x})\end{matrix}\right]$
$\boldsymbol{y}$ 分别对 $\boldsymbol{w}$ 和 $\boldsymbol{x}$ 求导可以得到两个方阵
$J_{\boldsymbol{w}} = \frac{\partial \boldsymbol{y}}{\partial \boldsymbol{w}} = \left[\begin{matrix}\frac{\partial }{\partial w_1}(f_1(\boldsymbol{w}) \bigcirc g_1(\boldsymbol{x})) & \frac{\partial }{\partial w_2}(f_1(\boldsymbol{w}) \bigcirc g_1(\boldsymbol{x})) & \cdots & \frac{\partial }{\partial w_n}(f_1(\boldsymbol{w}) \bigcirc g_1(\boldsymbol{x})) \\ \frac{\partial }{\partial w_1}(f_2(\boldsymbol{w}) \bigcirc g_2(\boldsymbol{x})) & \frac{\partial }{\partial w_2}(f_2(\boldsymbol{w}) \bigcirc g_2(\boldsymbol{x})) & \cdots & \frac{\partial }{\partial w_n}(f_2(\boldsymbol{w}) \bigcirc g_2(\boldsymbol{x})) \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial }{\partial w_1}(f_n(\boldsymbol{w}) \bigcirc g_n(\boldsymbol{x})) & \frac{\partial }{\partial w_2}(f_n(\boldsymbol{w}) \bigcirc g_n(\boldsymbol{x})) & \cdots & \frac{\partial }{\partial w_n}(f_n(\boldsymbol{w}) \bigcirc g_n(\boldsymbol{x})) \\ \end{matrix}\right]$

最低0.47元/天解锁文章

TimsonShi

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
神经翻译笔记3扩展a. 深度学习的矩阵微积分基础

文章目录神经翻译笔记3扩展a. 深度学习的矩阵微积分基础预备知识矩阵微积分雅可比矩阵的泛化两向量间逐元素运算的导数向量与标量运算的导数向量的求和规约操作链式法则单变量链式法则单变量全微分链式法则向量的链式法则激活函数的梯度神经网络损失函数的梯度神经翻译笔记3扩展a. 深度学习的矩阵微积分基础写在前面：矩阵微积分是深度学习的数学基础之一，但是这部分内容在大学计算机系（及相关非数学类专业）本科几乎...
复制链接

扫一扫