矩阵求导公式的推导和计算（公式推导法）

最新推荐文章于 2022-03-29 13:54:44 发布

行者^_^煜煜

最新推荐文章于 2022-03-29 13:54:44 发布

阅读量4.4k

点赞数 3

分类专栏：笔记文章标签：线性代数机器学习神经网络

本文链接：https://blog.csdn.net/xingzhe123456789000/article/details/107301677

版权

笔记专栏收录该内容

11 篇文章 1 订阅

订阅专栏

矩阵求导公式的推导和计算（公式推导法）

引言
全微分公式
一个例子
链式求导法则的应用

引言

在上一篇文章《机器学习中的向量求导和矩阵求导》中，我们介绍了关于矩阵求导和向量求导的一些定义和计算方式。这些内容对于理解向量和矩阵的求导，以及在公式中矩阵和向量的大小是如何能够合法化的非常有帮助。

但是在实际的公式推导中，我们不可能按照定义逐个进行求导，一方面这样很麻烦，另一方面，对于包含矩阵和向量的公式的求导用这种方式进行求解也是不合适的。就好像你不会每次在求导的时候都是从极限的定义开始求解的一样。

这部分内容，相信大部分同学和我一样，在简单推导的时候还可以看个大概，遇到复杂的就不知所云。究其原因，还是在看公式推导的时候，只做到了大概了解。对于为什么某个求导的时候，后边的向量放到了前面之类的形式根本不知道为什么。举例来说，对于公式 $f=\bm{a^\mathsf{T}Xb}$ ，标量 $f$ 对向量 $\bm{X}$ 的偏导结果 $\frac{\partial{f}}{\partial{\bm{X}}}=\bm{ab^{\mathsf{T}}}$ ，为什么是这个结果？根据我们提到的上一篇文章《机器学习中的向量求导和矩阵求导》中的内容，求导的结果是分母布局的，为什么是这个布局……

全微分公式

在这篇文章中，我们将对包含矩阵和向量（向量也可以理解为是矩阵，只不过每一行只包含一列而已）的公式求偏导的内容进行介绍。对于公式的推导就会有条不紊。在对矩阵和向量的求导中，我们不从矩阵或向量的每一个元素的角度进行理解，我们从整体的角度进行运算¹。

首先，我们给出一个公式：

$tr({\frac{\partial{f}}{\partial{\bm{X}}}}^{\mathsf{T}}d\bm{X}) \tag{1}$

首先，在这个公式中，首先：

tr表示迹，表示一个方阵的对角线元素之和。
对于标量结果 $f$ （loss，一般就是所有loss的加和，标量），其对矩阵 $\bm{X} \in \mathbb{R}^{m \times n}$ 求偏导，相当于在 $\times n$ 的矩阵上求偏导，将所有偏导值与对应方向的偏微分进行相乘并加和可以得到 $f$ 的全微分。针对公式（1），用矩阵的形式来表达，也即微分矩阵 $d\bm{X} \in \mathbb{R}^{m \times n}$ 与偏导矩阵的内积就是 $f$ 的全微分 $d f$ 。
相同尺寸的矩阵 $\bm{A}$ 、 $\bm{B}$ 的内积可以表示为 $tr(\bm{A^{\mathsf{T}}B})$ 。（相同尺寸的矩阵 $\bm{A}$ 、 $\bm{B}$ 的内积表示矩阵对应位置元素逐个相乘的总和，即 $inner-Product(\mathsf{A}, mathsf{B})=\sum_{i,j}\mathsf{A}_{ij}\mathsf{B}_{ij}$ 。相关证明可以自行百度，理解的话其实就是 $\bm{A}^{\mathsf{T}}$ 的第 $i$ 行，与 $\bm{B}$ 的第 $i$ 列元素的内积就是 $\bm{A}$ 中第 $i$ 列与 $\bm{B}$ 的第 $i$ 列元素对应相乘并加和。因此，对角线元素加和就相当于两同形矩阵的对应元素之和。
最终的求偏导结果，我们只需要将原方程的微分形式写成公式（1）的形式，就可以计算出偏导矩阵 $\frac{\partial{f}}{\partial{\bm{X}}}$ 。