神经翻译笔记3扩展a. 深度学习的矩阵微积分基础

最新推荐文章于 2022-02-28 16:27:19 发布

TimsonShi

最新推荐文章于 2022-02-28 16:27:19 发布

阅读量463

点赞数

分类专栏：神经翻译笔记文章标签：矩阵微分

本文链接：https://blog.csdn.net/xacecask2/article/details/89314999

版权

这篇博客介绍了深度学习中矩阵微积分的基础知识，包括雅可比矩阵、链式法则及其在神经网络损失函数梯度计算中的应用，强调了矩阵微积分在理解并优化模型中的重要性。

摘要由CSDN通过智能技术生成

文章目录

神经翻译笔记3扩展a. 深度学习的矩阵微积分基础

神经翻译笔记3扩展a. 深度学习的矩阵微积分基础

写在前面：矩阵微积分是深度学习的数学基础之一，但是这部分内容在大学计算机系（及相关非数学类专业）本科几乎没有介绍，想要了解全凭自学。我之前看过的比较好的资料有三个：维基百科的Matrix Calculus词条、The Matrix Cookbook和Towser的《机器学习中的矩阵/向量求导》。然而前两个都是英文资料，而且主要重视结论，可以当做字典用，但是看完总有点“知其然不知其所以然”的感觉（维基词条似乎有简单的计算过程介绍，但是还是有点简略）；Towser大神的文章写得很不错，但是我数学较差，看到张量相关的部分还是觉得有点脑子转不过来

最近这几天我整理自己的微博收藏时，无意间发现北邮陈光老师（爱可可爱生活@微博）曾经推荐过一篇文章：Terence Parr和Jeremy Howard合作的The Matrix Calculus You Need For Deep Learning，感觉比较符合我的需求（再次证明收藏过的东西如果不回顾就是白收藏），相对Towser的文章更基础一点。这篇博客就是我阅读该论文的一些摘要

预备知识

对于一元函数的导数，存在如下几条规则（以下均认为 $x$ 是自变量）：

常数函数的导数为0： $\rightarrow df/dx = 0$
常量相乘法则： $c\frac{df}{dx}$
幂函数求导法则： $x^n \rightarrow \frac{df}{dx} = nx^{n-1}$
加法法则： $\frac{d}{dx}(f(x) + g(x)) = \frac{df}{dx} + \frac{dg}{dx}$
减法法则： $\frac{d}{dx}(f(x) - g(x)) = \frac{df}{dx} - \frac{dg}{dx}$
乘法法则： $\frac{d}{dx}(f(x)\cdot g(x)) = f(x)\cdot \frac{dg}{dx} + \frac{df}{dx}\cdot g(x)$
链式法则： $\frac{d}{dx}(f(g(x))) = \frac{df(u)}{du}\cdot \frac{du}{dx}$ ，若令 $u = g (x)$

对于二元函数，需要引入偏导数的概念。假设函数为 $f (x, y)$ ，求函数对 $x$ 或 $y$ 的偏导数时，将另一个变量看作是常量（对于多元函数，求对某个变量的偏导数时，将其它所有变量都视为常量）。求得的偏导数可以组合成为梯度，记为 $\nabla f(x,y)$ 。即
$\nabla f(x,y) = \left[\begin{matrix}\frac{\partial f(x,y)}{\partial x} \\ \frac{\partial f(x,y)}{\partial y}\end{matrix}\right]$
(注意：原文里梯度表示成了一个行向量，并说明他们使用了numerator layout。但是这样会使得标量对向量的微分结果与该向量形状相异，也与主流记法相左。因此本文记录时做了转换，使用主流的denominator layout记法)

矩阵微积分

同一个函数对不同变量求偏导的结果可以组成称为梯度，多个函数对各变量求偏导的结果则可以组合成一个矩阵，称为雅可比矩阵（Jacobian matrix）。例如如果有函数 $f, g$ ，两者各自的梯度可以组合为
$\left[\begin{matrix}\nabla^\mathsf{T} f(x,y) \\ \nabla^\mathsf{T} g(x, y)\end{matrix}\right]$

雅可比矩阵的泛化

可以将多元变量组合成一个向量： $f(x_1, x_2, \ldots, x_n) = f(\boldsymbol{x})$ （本文认为所有向量都是 $\times 1$ 维的，即
$\boldsymbol{x} = \left[\begin{matrix}x_1 \\ x_2 \\ \vdots \\ x_n\end{matrix}\right]$
）假设有 $m$ 个函数分别向量 $\boldsymbol{x}$ 计算得出一个标量，即
$\begin{aligned} y_1 &= f_1(\boldsymbol{x}) \\ y_2 &= f_2(\boldsymbol{x}) \\ &\vdots \\ y_m &= f_m(\boldsymbol{x}) \end{aligned}$
可以简记为
$\boldsymbol{y} = \boldsymbol{f}(\boldsymbol{x})$
$\boldsymbol{y}$ 对 $\boldsymbol{x}$ 求导的结果就是将每个函数对 $\boldsymbol{x}$ 的导数堆叠起来得到的雅可比矩阵：
$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}} = \left[\begin{matrix}\frac{\partial}{\partial x_1}f_1(\boldsymbol{x}) & \frac{\partial}{\partial x_2}f_1(\boldsymbol{x}) & \cdots & \frac{\partial}{\partial x_n}f_1(\boldsymbol{x})\\ \frac{\partial}{\partial x_1}f_2(\boldsymbol{x}) & \frac{\partial}{\partial x_2}f_2(\boldsymbol{x}) & \cdots & \frac{\partial}{\partial x_n}f_2(\boldsymbol{x})\\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial}{\partial x_1}f_m(\boldsymbol{x}) & \frac{\partial}{\partial x_2}f_m(\boldsymbol{x}) & \cdots & \frac{\partial}{\partial x_n}f_m(\boldsymbol{x})\\ \end{matrix}\right]$

两向量间逐元素运算的导数

假设 $\bigcirc$ 是一个对两向量逐元素进行计算的操作符（例如 $\bigoplus$ 是向量加法，就是两个向量逐元素相加），则对于 $\boldsymbol{y} = \boldsymbol{f}(\boldsymbol{w}) \bigcirc \boldsymbol{g}(\boldsymbol{x})$ ，假设 $n = m = ∣ y ∣ = ∣ w ∣ = ∣ x ∣$ ，可以做如下展开
$\left[\begin{matrix}y_1 \\ y_2 \\ \vdots \\ y_n\end{matrix}\right] = \left[\begin{matrix} f_1(\boldsymbol{w}) \bigcirc g_1(\boldsymbol{x}) \\ f_2(\boldsymbol{w}) \bigcirc g_2(\boldsymbol{x}) \\ \vdots \\ f_n(\boldsymbol{w}) \bigcirc g_n(\boldsymbol{x})\end{matrix}\right]$
$\boldsymbol{y}$ 分别对 $\boldsymbol{w}$ 和 $\boldsymbol{x}$ 求导可以得到两个方阵
$J_{\boldsymbol{w}} = \frac{\partial \boldsymbol{y}}{\partial \boldsymbol{w}} = \left[\begin{matrix}\frac{\partial }{\partial w_1}(f_1(\boldsymbol{w}) \bigcirc g_1(\boldsymbol{x})) & \frac{\partial }{\partial w_2}(f_1(\boldsymbol{w}) \bigcirc g_1(\boldsymbol{x})) & \cdots & \frac{\partial }{\partial w_n}(f_1(\boldsymbol{w}) \bigcirc g_1(\boldsymbol{x})) \\ \frac{\partial }{\partial w_1}(f_2(\boldsymbol{w}) \bigcirc g_2(\boldsymbol{x})) & \frac{\partial }{\partial w_2}(f_2(\boldsymbol{w}) \bigcirc g_2(\boldsymbol{x})) & \cdots & \frac{\partial }{\partial w_n}(f_2(\boldsymbol{w}) \bigcirc g_2(\boldsymbol{x})) \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial }{\partial w_1}(f_n(\boldsymbol{w}) \bigcirc g_n(\boldsymbol{x})) & \frac{\partial }{\partial w_2}(f_n(\boldsymbol{w}) \bigcirc g_n(\boldsymbol{x})) & \cdots & \frac{\partial }{\partial w_n}(f_n(\boldsymbol{w}) \bigcirc g_n(\boldsymbol{x})) \\ \end{matrix}\right]$