机器学习中的数学：求导技术

最新推荐文章于 2022-06-10 15:02:34 发布

grey_wings

最新推荐文章于 2022-06-10 15:02:34 发布

阅读量1.4k

点赞数 2

文章标签：人工智能机器学习数学

本文链接：https://blog.csdn.net/weixin_60439242/article/details/119043313

版权

符号约定

$x$ ：标量

$\boldsymbol{x}$ ：向量

$\boldsymbol{X}$ ：矩阵

$tr(\boldsymbol{A})$ ：矩阵 $\boldsymbol{A}$ 的迹

$\langle \boldsymbol{A},\boldsymbol{B} \rangle$ ：矩阵 $\boldsymbol{A}$ 和矩阵 $\boldsymbol{B}$ 的内积（数量积）

$\boldsymbol{A}*\boldsymbol{B}$ ：矩阵 $\boldsymbol{A}$ 和矩阵 $\boldsymbol{B}$ 的元素积（Hadamard积）

$\boldsymbol{A}\otimes\boldsymbol{B}$ ：矩阵 $\boldsymbol{A}$ 和矩阵 $\boldsymbol{B}$ 的张量积（Kronecker积）

$vec(\boldsymbol{A})$ ：矩阵 $\boldsymbol{A}$ 的（列）向量化

注：本文在实数范围内进行讨论。

一、求导定义与布局方式

1、求导定义

根据求导的自变量和因变量是标量、向量还是矩阵，有9种可能的求导定义：

自变量/因变量	标量 $y$	向量 $\boldsymbol{y}$	矩阵 $\boldsymbol{Y}$
标量 $x$	$\frac{\partial y}{\partial x}$	$\frac{\partial \boldsymbol{y}}{\partial x}$	$\frac{\partial \boldsymbol{Y}}{\partial x}$
向量 $\boldsymbol{x}$	$\frac{\partial y}{\partial \boldsymbol{x}}$	$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}$	$\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{x}}$
矩阵 $\boldsymbol{X}$	$\frac{\partial y}{\partial \boldsymbol{X}}$	$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{X}}$	$\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{X}}$

在高等数学里，我们学习了标量对标量的求导，而其他的任何一种求导，最终都是转化成标量之间的求导，并把结果按照一定的方式排列，以向量或者矩阵的形式表达出来。

2、分子布局和分母布局

以一个 $m$ 维向量 $\boldsymbol{y}$ 对标量 $x$ 的求导为例，它的结果 $\frac{\partial \boldsymbol{y}}{\partial x}$ 也是一个 $m$ 维向量，其每一维对应向量 $\boldsymbol{y}$ 的每一维对标量 $x$ 的导数。问题是， $\frac{\partial \boldsymbol{y}}{\partial x}$ 究竟应该表示成行向量，还是列向量呢？答案是都可以。但是在一系列的计算中，任意书写会带来阅读和求解的困难，为此引入布局的约定概念：

分子布局（numerator layout）：导数的维度以分子为主。
分母布局（denominator layout）：导数的维度以分母为主。

由此，我们有（表中分子布局简写为N，分母布局简写为D）：

自变量/因变量	标量 $y$	$m$ 维列向量 $\boldsymbol{y}$	$\times q$ 矩阵 $\boldsymbol{Y}$
标量 $x$	/	N: $m$ 维列向量 D: $m$ 维行向量	N: $\times q$ 矩阵 D: $\times p$ 矩阵
$n$ 列向量 $\boldsymbol{x}$	N: $n$ 维行向量 D: $n$ 维列向量	N: $\times n$ 矩阵 D: $\times m$ 矩阵	/
$\times t$ 矩阵 $\boldsymbol{X}$	N: $\times s$ 矩阵 D: $\times t$ 矩阵	/	/

注1： $m$ 维列向量 $\boldsymbol{y}$ 对 $n$ 维列向量 $\boldsymbol{x}$ 求导的结果，若按分子布局排列，即为一个 $\times n$ 维的Jacobian矩阵，

注2：分子布局和分母布局的结果相差一个转置。

注3：在机器学习的算法推导里，通常遵循以下布局的规范（本文采用）：

向量/矩阵对标量求导，采用分子布局
标量对向量/矩阵求导，采用分母布局
向量对向量求导，采用分母布局

二、标量对矩阵的求导

1、定义法

设 $y$ 为标量， $\boldsymbol{X}$ 是 $\times n$ 维矩阵，那么 $y$ 对 $\boldsymbol{X}$ 的导数为：
$\frac{\partial y}{\partial \boldsymbol{X}}=\bigg[\frac{\partial y}{\partial x_{ij}}\bigg]_{i=1,j=1}^{m,n}$

例1： $f=\boldsymbol{a}^T\boldsymbol{X}\boldsymbol{b}$ ，用定义法求 $\frac{\partial f}{\partial \boldsymbol{X}}$ 。其中 $\boldsymbol{a}$ 是 $\times 1$ 列向量， $\boldsymbol{X}$ 是 $\times n$ 矩阵， $\boldsymbol{b}$ 是 $\times 1$ 列向量， $f$ 是标量。

解：有如下等式：
$\boldsymbol{a}^T\boldsymbol{X}\boldsymbol{b}=\sum_{i=1}^{m}\sum_{j=1}^{n}a_ix_{ij}b_j$
从而有：
$\frac{\partial f}{\partial x_{ij}}=\frac{\partial \boldsymbol{a}^T\boldsymbol{X}\boldsymbol{b}}{\partial x_{ij}}=a_ib_j$
所以：
$\frac{\partial f}{\partial \boldsymbol{X}}=\boldsymbol{a}\boldsymbol{b}^T$

2、微分法

在一元微积分中，导数（标量对标量的导数）与微分有联系：

$d f = f^{'} (x) d x$
在多元微积分中，梯度（标量对向量的导数）也与微分有联系：

$df=\sum_{i=1}^{n}\frac{\partial f}{\partial x_i}dx_i=\frac{\partial f}{\partial \boldsymbol{x}}^Td\boldsymbol{x}$
把多元微积分中的梯度与微分之间的联系拓展到矩阵，则有：

$df=\sum_{i=1}^{m}\sum_{j=1}^{n}\frac{\partial f}{\partial x_{ij}}dx_{ij}=tr\bigg(\frac{\partial f}{\partial \boldsymbol{X}}^Td\boldsymbol{X}\bigg)$
也就是说，全微分 $d f$ 是导数 $\frac{\partial f}{\partial \boldsymbol{X}}(m \times n)$ 与微分矩阵 $d\boldsymbol{X}(m \times n)$ 的内积（数量积）。同时，根据矩阵的内积和矩阵的迹之间的关系，我们可以如下求出标量 $f$ 对矩阵 $\boldsymbol{X}$ 的导数：

(1)根据给定的 $f$ 求出 $d f$ 。
(2)给 $d f$ 套上迹 $t r$ ，由于 $d f$ 是标量，故有 $d f = t r (d f)$ 。
(3)化简 $t r (d f)$ ，根据导数与微分的联系 $df=tr\bigg(\frac{\partial f}{\partial \boldsymbol{X}}^Td\boldsymbol{X}\bigg)$ 求得 $\frac{\partial f}{\partial \boldsymbol{X}}$ 。

例2： $f=\boldsymbol{a}^T\boldsymbol{X}\boldsymbol{b}$ ，用微分法求 $\frac{\partial f}{\partial \boldsymbol{X}}$ 。其中 $\boldsymbol{a}$ 是 $\times 1$ 列向量， $\boldsymbol{X}$ 是 $\times n$ 矩阵， $\boldsymbol{b}$ 是 $\times 1$ 列向量， $f$ 是标量。

解：(1)求出 $d f$ ：
$df=d\boldsymbol{a}^T\boldsymbol{X}\boldsymbol{b}+\boldsymbol{a}^Td\boldsymbol{X}\boldsymbol{b}+\boldsymbol{a}^T\boldsymbol{X}d\boldsymbol{b}=\boldsymbol{a}^Td\boldsymbol{X}\boldsymbol{b}$
(2)给 $d f$ 套上迹 $t r$ 并化简：
$df=tr(df)=tr(\boldsymbol{a}^Td\boldsymbol{X}\boldsymbol{b})=tr(\boldsymbol{b}\boldsymbol{a}^Td\boldsymbol{X})=tr((\boldsymbol{a}\boldsymbol{b}^T)^Td\boldsymbol{X})$
(3)根据导数与微分的联系 $df=tr\bigg(\frac{\partial f}{\partial \boldsymbol{X}}^Td\boldsymbol{X}\bigg)$ ，有：
$\frac{\partial f}{\partial \boldsymbol{X}}=\boldsymbol{a}\boldsymbol{b}^T$

例3： $f=\boldsymbol{a}^Texp(\boldsymbol{X}\boldsymbol{b})$ ，求 $\frac{\partial f}{\partial \boldsymbol{X}}$ 。其中 $\boldsymbol{a}$ 是 $\times 1$ 列向量， $\boldsymbol{X}$ 是 $\times n$ 矩阵， $\boldsymbol{b}$ 是 $\times 1$ 列向量， $e x p$ 是逐元素求指数函数， $f$ 是标量。

解：(1)求出 $d f$ ：
$df=\boldsymbol{a}^T(exp(\boldsymbol{X}\boldsymbol{b})*(d\boldsymbol{X}\boldsymbol{b}))$
(2)给 $d f$ 套上迹 $t r$ 并化简：
$\begin{aligned} df & =tr(df)=tr(\boldsymbol{a}^T(exp(\boldsymbol{X}\boldsymbol{b})*(d\boldsymbol{X}\boldsymbol{b}))) \\ & = tr((\boldsymbol{a}*exp(\boldsymbol{X}\boldsymbol{b}))^Td\boldsymbol{X}\boldsymbol{b}) \\ & = tr(\boldsymbol{b}(\boldsymbol{a}*exp(\boldsymbol{X}\boldsymbol{b}))^Td\boldsymbol{X}) \\ & = tr(((\boldsymbol{a}*exp(\boldsymbol{X}\boldsymbol{b}))\boldsymbol{b}^T)^Td\boldsymbol{X}) \end{aligned}$
(3)根据导数与微分的联系 $df=tr\bigg(\frac{\partial f}{\partial \boldsymbol{X}}^Td\boldsymbol{X}\bigg)$ ，有：
$\frac{\partial f}{\partial \boldsymbol{X}}=(\boldsymbol{a}*exp(\boldsymbol{X}\boldsymbol{b}))\boldsymbol{b}^T$

例4： $\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y} ||^2$ ，求 $\boldsymbol{w}$ 的最小二乘估计，即求 $\frac{\partial l}{\partial \boldsymbol{w}}$ 的零点。其中 $\boldsymbol{y}$ 是 $\times 1$ 列向量， $\boldsymbol{X}$ 是 $\times n$ 矩阵， $\boldsymbol{w}$ 是 $\times 1$ 列向量， $l$ 是标量。

解：(1)求出 $d l$ ：

易知：
$\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y} ||^2=(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y})^T(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y})$
从而有：
$dl=(\boldsymbol{X}d\boldsymbol{w})^T(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y})+(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y})^T(\boldsymbol{X}d\boldsymbol{w})$
(2)给 $d l$ 套上迹 $t r$ 并化简：
$\begin{aligned} dl & =tr(dl)=tr((\boldsymbol{X}d\boldsymbol{w})^T(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y})+(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y})^T(\boldsymbol{X}d\boldsymbol{w})) \\ & = tr(2(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y})^T(\boldsymbol{X}d\boldsymbol{w})) \\ & = tr((2\boldsymbol{X}^T(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y}))^Td\boldsymbol{w}) \end{aligned}$
(3)根据导数与微分的联系 $dl=tr\bigg(\frac{\partial l}{\partial \boldsymbol{w}}^Td\boldsymbol{w}\bigg)$ ，有：
$\frac{\partial l}{\partial \boldsymbol{w}}=2\boldsymbol{X}^T(\boldsymbol{X}\boldsymbol{w}-\boldsymbol{y})$
(4)求 $\frac{\partial l}{\partial \boldsymbol{w}}$ 的零点：

令 $\frac{\partial l}{\partial \boldsymbol{w}}=\boldsymbol{0}$ ，有：
$\boldsymbol{X}^T\boldsymbol{X}\boldsymbol{w}=\boldsymbol{X}^T\boldsymbol{y}$
得到 $\boldsymbol{w}$ 的最小二乘估计为：
$\boldsymbol{w}=(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}$

例5： $l=-\boldsymbol{y}^Tln(softmax(\boldsymbol{W}\boldsymbol{x}))$ ，求 $\frac{\partial l}{\partial \boldsymbol{W}}$ 。其中 $\boldsymbol{y}$ 是除一个元素为 $1$ 外其他元素为 $0$ 的 $\times 1$ 列向量， $\boldsymbol{W}$ 是 $\times n$ 矩阵， $\boldsymbol{x}$ 是 $\times 1$ 列向量， $l$ 是标量； $l n$ 表示逐元素求自然对数， $softmax(\boldsymbol{a})=\frac{exp(\boldsymbol{a})}{\boldsymbol{1}^Texp(\boldsymbol{a})}$ ，其中 $exp(\boldsymbol{a})$ 表示逐元素求指数函数， $\boldsymbol{1}$ 表示全 $1$ 的列向量。

解：(1)求出 $d l$ ：

注意到： $ln(\boldsymbol{u}/c)=ln(\boldsymbol{u})-\boldsymbol{1}ln(c)$ ，以及 $\boldsymbol{y}^T\boldsymbol{1}=1$ ，有：
$\begin{aligned} l & =-\boldsymbol{y}^Tln(exp(\boldsymbol{W}\boldsymbol{x}))+\boldsymbol{y}^T\boldsymbol{1}ln(\boldsymbol{1}^Texp(\boldsymbol{W}\boldsymbol{x})) \\ & = -\boldsymbol{y}^T\boldsymbol{W}\boldsymbol{x}+ln(\boldsymbol{1}^Texp(\boldsymbol{W}\boldsymbol{x})) \end{aligned}$
从而：
$\begin{aligned} dl & = -\boldsymbol{y}^Td\boldsymbol{W}\boldsymbol{x}+\frac{\boldsymbol{1}^T(exp(\boldsymbol{W}\boldsymbol{x})*(d\boldsymbol{W}\boldsymbol{x}))}{\boldsymbol{1}^Texp(\boldsymbol{W}\boldsymbol{x})} \\ & = -\boldsymbol{y}^Td\boldsymbol{W}\boldsymbol{x}+\frac{exp(\boldsymbol{W}\boldsymbol{x})^T(d\boldsymbol{W}\boldsymbol{x})}{\boldsymbol{1}^Texp(\boldsymbol{W}\boldsymbol{x})} \\ & = (softmax(\boldsymbol{W}\boldsymbol{x})-\boldsymbol{y})^Td\boldsymbol{W}\boldsymbol{x} \end{aligned}$
(2)给 $d l$ 套上迹 $t r$ 并化简：
$\begin{aligned} dl & = tr(dl)=tr((softmax(\boldsymbol{W}\boldsymbol{x})-\boldsymbol{y})^Td\boldsymbol{W}\boldsymbol{x}) \\ & = tr(\boldsymbol{x}(softmax(\boldsymbol{W}\boldsymbol{x})-\boldsymbol{y})^Td\boldsymbol{W}) \\ & = tr(((softmax(\boldsymbol{W}\boldsymbol{x})-\boldsymbol{y})\boldsymbol{x}^T)^Td\boldsymbol{W}) \end{aligned}$
(3)根据导数与微分的联系 $dl=tr\bigg(\frac{\partial l}{\partial \boldsymbol{W}}^Td\boldsymbol{W}\bigg)$ ，有：
$\frac{\partial l}{\partial \boldsymbol{W}}=(softmax(\boldsymbol{W}\boldsymbol{x})-\boldsymbol{y})\boldsymbol{x}^T$

例6： 求 $tr(\boldsymbol{A}\boldsymbol{B})$ 对矩阵 $\boldsymbol{A}$ 的导数，其中矩阵 $\boldsymbol{A}$ 和矩阵 $\boldsymbol{B}^T$ 的形状相同。

解：(1)令 $f=tr(\boldsymbol{A}\boldsymbol{B})$ ，求出 $d f$ ：
$df=d(tr(\boldsymbol{A}\boldsymbol{B}))=tr(d(\boldsymbol{A}\boldsymbol{B}))=tr((d\boldsymbol{A})\boldsymbol{B})=tr(\boldsymbol{B}d\boldsymbol{A})$
(2)根据导数与微分的联系 $df=tr\bigg(\frac{\partial f}{\partial \boldsymbol{A}}^Td\boldsymbol{A}\bigg)$ ，有：
$\frac{\partial f}{\partial \boldsymbol{A}}=\boldsymbol{B}^T$

三、向量对向量的求导

1、定义法

设 $\boldsymbol{y}$ 为 $\times 1$ 列向量， $\boldsymbol{x}$ 是 $\times 1$ 列向量，那么 $\boldsymbol{y}$ 对 $\boldsymbol{x}$ 的导数（分母布局）为 $\times m$ 维矩阵：
$\frac{\partial \boldsymbol{y}}{\partial \boldsymbol{x}}= \begin{pmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_2}{\partial x_1} & \dots & \frac{\partial y_m}{\partial x_1} \\ \frac{\partial y_1}{\partial x_2} & \frac{\partial y_2}{\partial x_2} & \dots & \frac{\partial y_m}{\partial x_2} \\ \dots & \dots & \dots & \dots \\ \frac{\partial y_1}{\partial x_n} & \frac{\partial y_2}{\partial x_n} & \dots & \frac{\partial y_m}{\partial x_n} \\ \end{pmatrix}$

2、微分法

列向量 $\boldsymbol{f}$ 对列向量 $\boldsymbol{x}$ 的导数（分母布局）与微分有如下联系：
$d\boldsymbol{f}=\frac{\partial \boldsymbol{f}}{\partial \boldsymbol{x}}^Td\boldsymbol{x}$

四、求导的链式法则

有时候并不需要使用链式法则，比如下面的例子：

例7： $f=tr(\boldsymbol{Y}^T\boldsymbol{M}\boldsymbol{Y}),Y=\sigma(\boldsymbol{W}\boldsymbol{X})$ ，求 $\frac{\partial f}{\partial \boldsymbol{X}}$ 。其中 $\boldsymbol{W}$ 是 $\times m$ 矩阵， $\boldsymbol{X}$ 是 $\times n$ 矩阵， $\boldsymbol{Y}$ 是 $\times n$ 矩阵， $\boldsymbol{M}$ 是 $\times l$ 对称矩阵， $\sigma$ 是逐元素函数， $f$ 是标量。

解：先求出 $\frac{\partial f}{\partial \boldsymbol{Y}}$ ：

(1)求出 $d f$ （自变量 $\boldsymbol{Y}$ ）：
$\begin{aligned} df & = tr((d\boldsymbol{Y})^T\boldsymbol{M}\boldsymbol{Y})+tr(\boldsymbol{Y}^T\boldsymbol{M}d\boldsymbol{Y}) \\ & = tr(\boldsymbol{Y}^T\boldsymbol{M}^Td\boldsymbol{Y})+tr(\boldsymbol{Y}^T\boldsymbol{M}d\boldsymbol{Y}) \\ & = tr(\boldsymbol{Y}^T(\boldsymbol{M}+\boldsymbol{M}^T)d\boldsymbol{Y}) \end{aligned}$
(2)根据导数与微分的联系 $df=tr\bigg(\frac{\partial f}{\partial \boldsymbol{Y}}^Td\boldsymbol{Y}\bigg)$ ，有：
$\frac{\partial f}{\partial \boldsymbol{Y}}=(\boldsymbol{M}^T+\boldsymbol{M})\boldsymbol{Y}=2\boldsymbol{M}\boldsymbol{Y}$
再求 $\frac{\partial f}{\partial \boldsymbol{X}}$ ：

(3)求出 $d f$ （自变量 $\boldsymbol{X}$ ）：
$\begin{aligned} df & = tr\bigg(\frac{\partial f}{\partial \boldsymbol{Y}}^Td\boldsymbol{Y}\bigg) \\ & = tr\bigg(\frac{\partial f}{\partial \boldsymbol{Y}}^T(\sigma'(\boldsymbol{W}\boldsymbol{X})*(\boldsymbol{W}d\boldsymbol{X}))\bigg) \\ & = tr\Bigg(\bigg(\frac{\partial f}{\partial \boldsymbol{Y}}*\sigma'(\boldsymbol{W}\boldsymbol{X})\bigg)^T\boldsymbol{W}d\boldsymbol{X}\Bigg) \end{aligned}$
(4)根据导数与微分的联系 $df=tr\bigg(\frac{\partial f}{\partial \boldsymbol{X}}^Td\boldsymbol{X}\bigg)$ ，有：
$\frac{\partial f}{\partial \boldsymbol{X}} =\boldsymbol{W}^T\bigg(\frac{\partial f}{\partial \boldsymbol{Y}}*\sigma'(\boldsymbol{W}\boldsymbol{X})\bigg) =\boldsymbol{W}^T((2\boldsymbol{M}\sigma(\boldsymbol{W\boldsymbol{X}}))*\sigma'(\boldsymbol{W}\boldsymbol{X}))$

但是很多时候，求导的自变量和因变量间有复杂的链式求导关系，若不使用链式法则计算会有些麻烦。

1、向量对向量求导的链式法则

设向量 $\boldsymbol{x}(m \times 1),\boldsymbol{y}(n \times 1),\boldsymbol{z}(p \times 1)$ 存在如下依赖关系：
$\boldsymbol{x}\rightarrow\boldsymbol{y}\rightarrow\boldsymbol{z}$
则我们有如下链式法则：
$\frac{\partial \boldsymbol{z}}{\partial\boldsymbol{x}}=\frac{\partial \boldsymbol{y}}{\partial\boldsymbol{x}}\frac{\partial \boldsymbol{z}}{\partial\boldsymbol{y}}$
从维度的角度可以验证上述做法的合理性：

等式左侧是一个 $\times p$ 维的矩阵，等式右侧是一个 $\times n$ 维矩阵和一个 $\times p$ 维矩阵的积，因此维度是相容的。

2、标量对多个向量求导的链式法则

设有依赖关系：
$\boldsymbol{y}_1\rightarrow\boldsymbol{y}_2\rightarrow\dots\rightarrow\boldsymbol{y}_n\rightarrow z$
则我们有如下链式法则：
$\frac{\partial z}{\partial\boldsymbol{y}_1}=\frac{\partial \boldsymbol{y}_2}{\partial\boldsymbol{y}_1}\frac{\partial \boldsymbol{y}_3}{\partial\boldsymbol{y}_2}\dots\frac{\partial \boldsymbol{y}_n}{\partial\boldsymbol{y}_{n-1}}\frac{\partial z}{\partial\boldsymbol{y}_n}$

3、标量对多个矩阵求导的链式法则

设有依赖关系：
$\boldsymbol{X}\rightarrow\boldsymbol{Y}\rightarrow z$
则我们有如下链式法则：
$\frac{\partial z}{\partial x_{ij}} =\sum_{k,l}\frac{\partial z}{\partial y_{kl}}\frac{\partial y_{kl}}{\partial x_{ij}} =tr\bigg((\frac{\partial z}{\partial \boldsymbol{Y}})^T\frac{\partial \boldsymbol{Y}}{\partial x_{ij}}\bigg)$
矩阵对矩阵的求导比较复杂，我们在下一节专门讨论。这里只是给出了对矩阵中的任一标量的链式求导方法，即如何求解 $\frac{\partial z}{\partial x_{ij}}$ ，而没有给出如何求解整体 $\frac{\partial z}{\partial \boldsymbol{X}}$ 。不过对于 $\frac{\partial z}{\partial \boldsymbol{X}}$ 的求解，还是有一些有用的结论容易获得，比如下面这个例子。

例8： $z=f(\boldsymbol{Y}),\boldsymbol{Y}=\boldsymbol{A}\boldsymbol{X}+\boldsymbol{B}$ ，求 $\frac{\partial z}{\partial\boldsymbol{X}}$ 其中 $\boldsymbol{A},\boldsymbol{B},\boldsymbol{X},\boldsymbol{Y}$ 都是矩阵， $z$ 是标量。

解：(1)由标量对矩阵的导数与微分的关系以及矩阵微分运算，有：
$tr\bigg(\frac{\partial z}{\partial \boldsymbol{Y}}^Td\boldsymbol{Y}\bigg) =tr\bigg(\frac{\partial z}{\partial \boldsymbol{Y}}^T\boldsymbol{A}d\boldsymbol{X}\bigg)$

(2)再由 $dz=tr\bigg(\frac{\partial z}{\partial \boldsymbol{X}}^Td\boldsymbol{X}\bigg)$ ，有：
$\frac{\partial z}{\partial\boldsymbol{X}}=\boldsymbol{A}^T\frac{\partial z}{\partial \boldsymbol{Y}}$

五、矩阵对矩阵的求导

1、基本方法

我们首先对这2个矩阵 $\boldsymbol{Y}(p \times q)$ 和 $\boldsymbol{X}(m \times n)$ 进行向量化：
$\begin{aligned} vec(\boldsymbol{Y}) & = [y_{11},\dots,y_{p1},y_{12},\dots,y_{p2},\dots,y_{1q},\dots,y_{pq}]^T \\ vec(\boldsymbol{X}) & = [x_{11},\dots,x_{m1},x_{12},\dots,x_{m2},\dots,x_{1n},\dots,x_{mn}]^T \end{aligned}$
从而我们可以把矩阵对矩阵的导数转化为向量对向量的导数（分母布局）：
$\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{X}}=\frac{\partial vec(\boldsymbol{Y})}{\partial vec(\boldsymbol{X})}$
其中， $\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{X}}$ 是一个 $mn \times pq$ 维的矩阵。并且，根据向量对向量的导数和微分的关系，我们有：
$vec(d\boldsymbol{Y})=\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{X}}^Tvec(d\boldsymbol{X})$
按此定义， $\frac{\partial f}{\partial \boldsymbol{X}}$ 的定义会产生歧义，设 $\boldsymbol{X}$ 是 $\times n$ 维矩阵，则：

按照标量对矩阵求导的原则，结果应该是一个 $\times n$ 维矩阵。
按照矩阵对矩阵求导的原则，结果应该是一个 $mn \times 1$ 维矩阵。

为了避免混淆，用记号 $\nabla_{\boldsymbol{X}}f$ 表示标量对矩阵导数，而 $\frac{\partial f}{\partial \boldsymbol{X}}=vec(\nabla_{\boldsymbol{X}}f)$ 。

标量对矩阵的二阶导数，又称为Hessian矩阵，定义如下：
$\nabla_{\boldsymbol{X}}^2f=\frac{\partial^2 f}{\partial \boldsymbol{X}^2}=\frac{\partial \nabla_{\boldsymbol{X}}f}{\partial \boldsymbol{X}}$
其中， $\nabla_{\boldsymbol{X}}^2f$ 是一个 $mn \times mn$ 维的对称矩阵。

微分法求矩阵 $\boldsymbol{F}$ 对矩阵 $\boldsymbol{X}$ 的导数的一般步骤概括如下：

(1)根据给定的 $\boldsymbol{F}$ 求出 $d\boldsymbol{F}$ 。
(2)将 $d\boldsymbol{F}$ 向量化为 $vec(d\boldsymbol{F})$ ，并进行化简。
(3)根据导数与微分的关系 $vec(d\boldsymbol{F})=\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}^Tvec(d\boldsymbol{X})$ ，求得 $\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}$ 。

2、链式法则

设有依赖关系：
$\boldsymbol{X}\rightarrow\boldsymbol{Y}\rightarrow\boldsymbol{Z}$
根据导数与微分的联系，有：
$vec(d\boldsymbol{F})=\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{Y}}^Tvec(d\boldsymbol{Y}) =\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{Y}}^T\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{X}}^Tvec(d\boldsymbol{X})$
从而有链式法则：
$\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}=\frac{\partial \boldsymbol{Y}}{\partial \boldsymbol{X}}\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{Y}}$

例9： $\boldsymbol{F}=\boldsymbol{A}\boldsymbol{X}$ ， $\boldsymbol{X}$ 是 $\times n$ 维矩阵，求 $\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}$ 。

解：(1)根据给定的 $\boldsymbol{F}$ 求出 $d\boldsymbol{F}$ ：
$d\boldsymbol{F}=\boldsymbol{A}d\boldsymbol{X}$
(2)将 $d\boldsymbol{F}$ 向量化为 $vec(d\boldsymbol{F})$ ，并进行化简：
$vec(d\boldsymbol{F})=vec(\boldsymbol{A}d\boldsymbol{X})=(\boldsymbol{I}_n \otimes \boldsymbol{A})vec(d\boldsymbol{X})$
(3)根据导数与微分的关系 $vec(d\boldsymbol{F})=\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}^Tvec(d\boldsymbol{X})$ ，求得 $\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}$ ：
$\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}=\boldsymbol{I}_n \otimes \boldsymbol{A}^T$

例10： $f=ln|\boldsymbol{X}|$ ， $\boldsymbol{X}$ 是 $\times n$ 矩阵，求 $\nabla_{\boldsymbol{X}}f$ 和 $\nabla_{\boldsymbol{X}}^2f$ 。

解：(1)首先求 $\nabla_{\boldsymbol{X}}f$ ：

$df=tr(\boldsymbol{X}^{-1}d\boldsymbol{X})$ ，故 $\nabla_{\boldsymbol{X}}f=(\boldsymbol{X}^{-1})^T$ 。于是问题转化为： $\boldsymbol{F}=(\boldsymbol{X}^{-1})^T$ ，求 $\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}$ 。

(2)根据给定的 $\boldsymbol{F}$ 求出 $d\boldsymbol{F}$ ：
$d\boldsymbol{F}=-(\boldsymbol{X}^{-1}d\boldsymbol{X}\boldsymbol{X}^{-1})^T$
(3)将 $d\boldsymbol{F}$ 向量化为 $vec(d\boldsymbol{F})$ ，并进行化简：
$vec(d\boldsymbol{F})=-\boldsymbol{K}_{nn}vec(\boldsymbol{X}^{-1}d\boldsymbol{X}\boldsymbol{X}^{-1})=-\boldsymbol{K}_{nn}((\boldsymbol{X}^{-1})^T*\boldsymbol{X}^{-1})vec(d\boldsymbol{X})$
其中 $\boldsymbol{K}_{nn}$ 是一个交换矩阵。

(4)根据导数与微分的关系 $vec(d\boldsymbol{F})=\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}^Tvec(d\boldsymbol{X})$ ，求得 $\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}$ ：
$\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}=\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}^T =-\boldsymbol{K}_{nn}((\boldsymbol{X}^{-1})^T*\boldsymbol{X}^{-1})$

例11： $\boldsymbol{F}=\boldsymbol{A}exp(\boldsymbol{X}\boldsymbol{B})$ ，求 $\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}$ 。其中 $\boldsymbol{A}$ 是 $\times m$ 矩阵， $\boldsymbol{X}$ 是 $\times n$ 矩阵， $\boldsymbol{B}$ 是 $\times p$ 矩阵， $e x p$ 为逐元素求指数函数。

解：(1)根据给定的 $\boldsymbol{F}$ 求出 $d\boldsymbol{F}$ ：
$d\boldsymbol{F}=\boldsymbol{A}(exp(\boldsymbol{X}\boldsymbol{B})*(d\boldsymbol{X}\boldsymbol{B}))$
(2)将 $d\boldsymbol{F}$ 向量化为 $vec(d\boldsymbol{F})$ ，并进行化简：
$\begin{aligned} vec(d\boldsymbol{F}) & = (\boldsymbol{I}_p \otimes \boldsymbol{A})vec(exp(\boldsymbol{X}\boldsymbol{B})*(d\boldsymbol{X}\boldsymbol{B})) \\ & = (\boldsymbol{I}_p \otimes \boldsymbol{A})diag(exp(\boldsymbol{X}\boldsymbol{B}))vec(d\boldsymbol{X}\boldsymbol{B}) \\ & = (\boldsymbol{I}_p \otimes \boldsymbol{A})diag(exp(\boldsymbol{X}\boldsymbol{B}))(\boldsymbol{B}^T \otimes \boldsymbol{I}_m)vec(d\boldsymbol{X}) \end{aligned}$
其中 $diag(\boldsymbol{A})$ 是用 $\boldsymbol{A}$ 的元素（按列优先）排成的对角阵。

(3)根据导数与微分的关系 $vec(d\boldsymbol{F})=\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}^Tvec(d\boldsymbol{X})$ ，求得 $\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}$ ：
$\frac{\partial \boldsymbol{F}}{\partial \boldsymbol{X}}=(\boldsymbol{B} \otimes \boldsymbol{I}_m)diag(exp(\boldsymbol{X}\boldsymbol{B}))(\boldsymbol{I}_p \otimes \boldsymbol{A}^T)$

例12： $l=-y\boldsymbol{x}^T\boldsymbol{w}+ln(1+exp(\boldsymbol{x}^T\boldsymbol{w}))$ ，求 $\nabla_{\boldsymbol{w}}l$ 和 $\nabla_{\boldsymbol{w}}^2l$ 。其中 $y$ 是取值为 $0$ 或 $1$ 的标量， $\boldsymbol{x},\boldsymbol{w}$ 是 $\times 1$ 列向量。

解：(1) $\nabla_{\boldsymbol{w}}l$ 是个标量对向量的导数，有：
$dl=-y\boldsymbol{x}^Td\boldsymbol{w}+(1+exp(\boldsymbol{x}^T\boldsymbol{w}))^{-1}*exp(\boldsymbol{x}^T\boldsymbol{w})*(\boldsymbol{x}^Td\boldsymbol{w})$
所以：
$\nabla_{\boldsymbol{w}}l=\boldsymbol{x}(\sigma(\boldsymbol{x}^T\boldsymbol{w})-y)$
其中， $\sigma(a)=\frac{exp(a)}{1+exp(a)}$ 是sigmoid函数。

(2) $\nabla_{\boldsymbol{w}}^2l$ 是个向量对向量的导数，有：
$d\nabla_{\boldsymbol{w}}l=\boldsymbol{x}\sigma'(\boldsymbol{x}^T\boldsymbol{w})\boldsymbol{x}^Td\boldsymbol{w}$
所以：
$\nabla_{\boldsymbol{w}}^2l=\boldsymbol{x}\sigma'(\boldsymbol{x}^T\boldsymbol{w})\boldsymbol{x}^T$

例13： $l=\sum_{i=1}^{N}(-y_i\boldsymbol{x}_i^T\boldsymbol{w}+ln(1+exp(\boldsymbol{x}_i^T\boldsymbol{w})))$ ，求 $\nabla_{\boldsymbol{w}}l$ 和 $\nabla_{\boldsymbol{w}}^2l$ 。其中 $y_i$ 是标量， $\boldsymbol{x}_i,\boldsymbol{w}$ 是 $\times 1$ 列向量。

解：(1)求 $\nabla_{\boldsymbol{w}}l$ （标量对向量的导数）：

定义矩阵 $\boldsymbol{X}=[\boldsymbol{x}_1^T,\dots,\boldsymbol{x}_N^T]^T(N \times n)$ ，向量 $\boldsymbol{y}=[y_1,\dots,y_N]^T$ ，从而可以将 $l$ 写成矩阵形式：
$l=-\boldsymbol{y}^T\boldsymbol{X}\boldsymbol{w}+\boldsymbol{1}^Tln(\boldsymbol{1}+exp(\boldsymbol{X}\boldsymbol{w}))$
其中 $\boldsymbol{1}$ 是全 $1$ 的 $\times 1$ 列向量。

求 $l$ 的微分有：
$\begin{aligned} dl & = -\boldsymbol{y}^T\boldsymbol{X}d\boldsymbol{w}+\boldsymbol{1}^T\bigg(\frac{1}{\boldsymbol{1}+exp(\boldsymbol{X}\boldsymbol{w})}*exp(\boldsymbol{X}\boldsymbol{w})*(\boldsymbol{X}d\boldsymbol{w})\bigg) \\ & = -\boldsymbol{y}^T\boldsymbol{X}d\boldsymbol{w}+\boldsymbol{1}^T(\sigma(\boldsymbol{X}\boldsymbol{w})*(\boldsymbol{X}d\boldsymbol{w})) \\ & = -\boldsymbol{y}^T\boldsymbol{X}d\boldsymbol{w}+(\boldsymbol{1}*\sigma(\boldsymbol{X}\boldsymbol{w}))^T\boldsymbol{X}d\boldsymbol{w} \\ & = -\boldsymbol{y}^T\boldsymbol{X}d\boldsymbol{w}+\sigma(\boldsymbol{X}\boldsymbol{w})^T\boldsymbol{X}d\boldsymbol{w} \end{aligned}$
故：
$\nabla_{\boldsymbol{w}}l=\boldsymbol{X}^T(\sigma(\boldsymbol{X}\boldsymbol{w})-\boldsymbol{y})$
(2)求 $\nabla_{\boldsymbol{w}}^2l$ （向量对向量的导数）：

求 $\nabla_{\boldsymbol{w}}l$ 的微分有：
$d\nabla_{\boldsymbol{w}}l=\boldsymbol{X}^T(\sigma'(\boldsymbol{X}\boldsymbol{w})*(\boldsymbol{X}d\boldsymbol{w}))=\boldsymbol{X}^Tdiag(\sigma'(\boldsymbol{X}\boldsymbol{w}))\boldsymbol{X}d\boldsymbol{w}$
从而：
$\nabla_{\boldsymbol{w}}^2l=\boldsymbol{X}^Tdiag(\sigma'(\boldsymbol{X}\boldsymbol{w}))\boldsymbol{X}$

附录

1、矩阵的迹

1.1迹的定义

$\times n$ 矩阵 $\boldsymbol{A}$ 的对角线元素之和称为 $\boldsymbol{A}$ 的迹(trace)，记作 $tr(\boldsymbol{A})$ ，非正方矩阵无迹的定义。

1.2关于迹的等式

(1)若 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 均为 $\times n$ 矩阵，则 $tr(\boldsymbol{A} \pm \boldsymbol{B})=tr(\boldsymbol{A}) \pm tr(\boldsymbol{B})$ 。

(2)若 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 均为 $\times n$ 矩阵，且 $c_1$ 和 $c_2$ 为常数，则 $tr(c_1\boldsymbol{A} \pm c_2\boldsymbol{B})=c_1tr(\boldsymbol{A}) \pm c_2tr(\boldsymbol{B})$ 。

(3) $tr(\boldsymbol{A}^T)=tr(\boldsymbol{A})$ 。

(4)若矩阵 $\boldsymbol{A}$ 和矩阵 $\boldsymbol{B}^T$ 形状相同，则 $tr(\boldsymbol{A}\boldsymbol{B})=tr(\boldsymbol{B}\boldsymbol{A})$ 。

(5)若矩阵 $\boldsymbol{A},\boldsymbol{B},\boldsymbol{C}$ 均为 $\times n$ 矩阵，则 $tr(\boldsymbol{A}^T(\boldsymbol{B}*\boldsymbol{C}))=tr((\boldsymbol{A}*\boldsymbol{B})^T\boldsymbol{C})$ 。

(6)若 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 均为方阵，则 $tr(\boldsymbol{A}\otimes\boldsymbol{B})=tr(\boldsymbol{A})tr(\boldsymbol{B})$ 。

(7)若矩阵 $\boldsymbol{A}$ 和矩阵 $\boldsymbol{B}$ 形状相同，则 $tr(\boldsymbol{A}^T\boldsymbol{B})=(vec(\boldsymbol{A}))^Tvec(\boldsymbol{B})=\langle \boldsymbol{A},\boldsymbol{B} \rangle$ 。

2、Hadamard积

2.1Hadamard积的定义

$\times n$ 矩阵 $\boldsymbol{A}=[a_{ij}]$ 与 $\times n$ 矩阵 $\boldsymbol{B}=[b_{ij}]$ 的Hadamard积记作 $\boldsymbol{A}*\boldsymbol{B}$ ，它仍然是一个 $\times n$ 矩阵，其元素定义为两个矩阵对应元素的乘积：
$(\boldsymbol{A}*\boldsymbol{B})_{ij}=a_{ij}b_{ij}$
Hadamard积也称Schur积或者对应元素乘积（简称元素积）。

2.2Hadamard积的性质

(1)若 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 均为 $\times n$ 矩阵，则 $(\boldsymbol{A}*\boldsymbol{B})^T=(\boldsymbol{A}^T*\boldsymbol{B}^T)$ 。

(2)若 $c$ 为常数，则 $c(\boldsymbol{A}*\boldsymbol{B})=(c\boldsymbol{A})*\boldsymbol{B}=\boldsymbol{A}*(c\boldsymbol{B})$ 。

(3)若 $\boldsymbol{A},\boldsymbol{B},\boldsymbol{C},\boldsymbol{D}$ 均为 $\times n$ 矩阵，则 $(\boldsymbol{A}+\boldsymbol{B})*(\boldsymbol{C}+\boldsymbol{D})=\boldsymbol{A}*\boldsymbol{C}+\boldsymbol{A}*\boldsymbol{D}+\boldsymbol{B}*\boldsymbol{C}+\boldsymbol{B}*\boldsymbol{D}$ 。

3、Kronecker积

3.1Kronecker积的定义

两个矩阵的Kronecker积分为右Kronecker积和左Kronecker积。

(1)右Kronecker积： $\times n$ 矩阵 $\boldsymbol{A}$ 和 $\times q$ 矩阵 $\boldsymbol{B}$ 的右Kronecker积 $\boldsymbol{A}\otimes\boldsymbol{B}$ 是一个 $mp \times nq$ 矩阵，定义为：
$\boldsymbol{A}\otimes\boldsymbol{B}=[a_{ij}\boldsymbol{B}]_{i=1,j=1}^{m,n}$
(2)左Kronecker积： $\times n$ 矩阵 $\boldsymbol{A}$ 和 $\times q$ 矩阵 $\boldsymbol{B}$ 的左Kronecker积 $\boldsymbol{A}\otimes\boldsymbol{B}$ 是一个 $mp \times nq$ 矩阵，定义为：
$\boldsymbol{A}\otimes\boldsymbol{B}=[\boldsymbol{A}b_{ij}]_{i=1,j=1}^{p,q}$
通常多采用右Kronecker积，为避免混淆，本文一律采用右Kronecker积，简称为Kronecker积（张量积）。

3.2Kronecker积的性质

(1)若 $\alpha$ 和 $\beta$ 为常数，则 $(\alpha\boldsymbol{A})\otimes(\beta\boldsymbol{B})=\alpha\beta(\boldsymbol{A}\otimes\boldsymbol{B})$ 。

(2)单位矩阵间的Kronecker积满足： $\boldsymbol{I}_m \otimes \boldsymbol{I}_n=\boldsymbol{I}_{mn}$ 。

(3)对于矩阵 $\boldsymbol{A}_{m \times n},\boldsymbol{B}_{n \times k},\boldsymbol{C}_{l \times p},\boldsymbol{D}_{p \times q}$ ，有 $(\boldsymbol{AB})\otimes(\boldsymbol{CD})=(\boldsymbol{A}\otimes\boldsymbol{C})(\boldsymbol{B}\otimes\boldsymbol{D})$ 。

(4)对于矩阵 $\boldsymbol{A}_{m \times n},\boldsymbol{B}_{p \times q},\boldsymbol{C}_{p \times q}$ ，有
$\begin{aligned} \boldsymbol{A}\otimes(\boldsymbol{B}\pm\boldsymbol{C}) & = \boldsymbol{A}\otimes\boldsymbol{B}\pm\boldsymbol{A}\otimes\boldsymbol{C} \\ (\boldsymbol{B}\pm\boldsymbol{C})\otimes \boldsymbol{A}& = \boldsymbol{B}\otimes\boldsymbol{A}\pm\boldsymbol{C}\otimes\boldsymbol{A} \end{aligned}$
(5)Kronecker积的转置满足： $(\boldsymbol{A}\otimes\boldsymbol{B})^T=\boldsymbol{A}^T\otimes\boldsymbol{B}^T$ 。

(6)Kronecker积的逆矩阵满足： $(\boldsymbol{A}\otimes\boldsymbol{B})^{-1}=\boldsymbol{A}^{-1}\otimes\boldsymbol{B}^{-1}$ 。

(7)Kronecker积的行列式满足： $det(\boldsymbol{A}_{n \times n}\otimes\boldsymbol{B}_{m \times m})=(det\boldsymbol{A})^m(det\boldsymbol{B})^n$ 。

(8)对于矩阵 $\boldsymbol{A}_{m \times n},\boldsymbol{B}_{m \times n},\boldsymbol{C}_{p \times q},\boldsymbol{D}_{p \times q}$ ，有 $(\boldsymbol{A}+\boldsymbol{B})\otimes(\boldsymbol{C}+\boldsymbol{D})=\boldsymbol{A}\otimes\boldsymbol{C}+\boldsymbol{A}\otimes\boldsymbol{D}+\boldsymbol{B}\otimes\boldsymbol{C}+\boldsymbol{B}\otimes\boldsymbol{D}$ 。

(9)对于矩阵 $\boldsymbol{A}_{m \times n},\boldsymbol{B}_{p \times q},\boldsymbol{C}_{k \times l}$ ，有 $(\boldsymbol{A}\otimes\boldsymbol{B})\otimes\boldsymbol{C}=\boldsymbol{A}\otimes(\boldsymbol{B}\otimes\boldsymbol{C})$ 。

(10)对于矩阵 $\boldsymbol{A}_{m \times n},\boldsymbol{B}_{k \times l},\boldsymbol{C}_{p \times q},\boldsymbol{D}_{r \times s}$ ，有 $(\boldsymbol{A}\otimes\boldsymbol{B})\otimes(\boldsymbol{C}\otimes\boldsymbol{D})=\boldsymbol{A}\otimes\boldsymbol{B}\otimes\boldsymbol{C}\otimes\boldsymbol{D}$ 。

(11)对于矩阵 $\boldsymbol{A}_{m \times n},\boldsymbol{B}_{p \times q}$ ，有 $exp(\boldsymbol{A}\otimes\boldsymbol{B})=exp(\boldsymbol{A})\otimes exp(\boldsymbol{B})$ 。

(12))对于矩阵 $\boldsymbol{A}_{m \times n},\boldsymbol{B}_{p \times q}$ ，有
$\begin{aligned} \boldsymbol{K}_{pm}(\boldsymbol{A}\otimes\boldsymbol{B}) &= (\boldsymbol{B}\otimes\boldsymbol{A})\boldsymbol{K}_{qn} \\ \boldsymbol{K}_{pm}(\boldsymbol{A}\otimes\boldsymbol{B})\boldsymbol{K}_{nq} &= \boldsymbol{B}\otimes\boldsymbol{A} \end{aligned}$

4、置换矩阵

4.1置换矩阵的定义

一个正方矩阵称为置换矩阵，若它的每一行和每一列有且仅有一个非零元素1（其余位置为0）。

4.2置换矩阵的性质

置换矩阵 $\boldsymbol{P}$ 是正交矩阵，即 $\boldsymbol{P}^T\boldsymbol{P}=\boldsymbol{P}\boldsymbol{P}^T=\boldsymbol{I}$ 。

5、矩阵的向量化

5.1向量化算子的定义

$\times n$ 矩阵的（列）向量化 $vec(\boldsymbol{A})$ 将矩阵 $\boldsymbol{A}=[a_{ij}]$ 的元素按列堆栈，排成一个 $mn \times 1$ 向量
$vec(\boldsymbol{A})=[a_{11},\dots,a_{m1},\dots,a_{1n},\dots,a_{mn}]^T$
矩阵也可以按行堆栈为行向量 $rvec(\boldsymbol{A})$ 。称为矩阵的行向量化，定义为
$rvec(\boldsymbol{A})=[a_{11},\dots,a_{1n},\dots,a_{m1},\dots,a_{mn}]$
显然矩阵的向量化和行向量化之间存在如下关系
$vec(\boldsymbol{A}^T)=(rvec(\boldsymbol{A}))^T$

5.2交换矩阵的定义

显然，对于一个 $\times n$ 矩阵 $\boldsymbol{A}$ ，向量 $vec(\boldsymbol{A})$ 和 $vec(\boldsymbol{A}^T)$ 含有相同的元素，但排列次序不同。因此，存在一个唯一的 $mn \times mn$ 置换矩阵，可以将一个矩阵的向量化 $vec(\boldsymbol{A})$ 变为其转置矩阵的向量化 $vec(\boldsymbol{A}^T)$ 。这一置换矩阵称为交换矩阵，记作 $\boldsymbol{K}_{mn}$ ，定义为
$\boldsymbol{K}_{mn}vec(\boldsymbol{A}_{m \times n})=vec(\boldsymbol{A}^T)$
类似地，可以将转置矩阵的向量化 $vec(\boldsymbol{A}^T)$ 变为原矩阵的向量化 $vec(\boldsymbol{A})$ 的交换矩阵是一和 $nm \times nm$ 置换矩阵，记作 $\boldsymbol{K}_{nm}$ ，定义为
$\boldsymbol{K}_{nm}vec(\boldsymbol{A}^T)=vec(\boldsymbol{A}_{m \times n})$
$mn \times mn$ 交换矩阵 $\boldsymbol{K}_{mn}$ 的构造方法如下：每一行只赋一个元素1，其余元素全部为0。首先，第1行第1个元素为1，然后这个1元素右移m位，变成第2行该位置的1元素。第2行该位置的1元素再右移m位，变成第3行该位置的1元素。依此类推，找到所有的1元素。但是，如果右移时超过第mn列，则应该转到下一行第1列继续移位，并多移动1位，再在此位置赋1。

5.3交换矩阵的性质

(1) $\boldsymbol{K}_{nm}\boldsymbol{K}_{mn}=\boldsymbol{K}_{mn}\boldsymbol{K}_{nm}=\boldsymbol{I}_{mn}$ 。

(2) $\boldsymbol{K}_{mn}^T\boldsymbol{K}_{mn}=\boldsymbol{K}_{mn}\boldsymbol{K}_{mn}^T=\boldsymbol{I}_{mn}$ 。

(3) $\boldsymbol{K}_{mn}^T=\boldsymbol{K}_{nm}$ 。

(4) $\boldsymbol{K}_{1n}=\boldsymbol{K}_{n1}=\boldsymbol{I}_n$ 。

5.4向量化算子的性质

(1)矩阵之和的向量化： $vec(\boldsymbol{A}+\boldsymbol{B})=vec(\boldsymbol{A})+vec(\boldsymbol{B})$ 。

(2) $\times n$ 矩阵 $\boldsymbol{A}$ 和 $\boldsymbol{B}$ 的Hadamard积的向量化： $vec(\boldsymbol{A}*\boldsymbol{B})=vec(\boldsymbol{A})*vec(\boldsymbol{B})=diag(vec(\boldsymbol{A}))vec(\boldsymbol{B})$ 。

其中 $diag(vec(\boldsymbol{A}))$ 表示以 $vec(\boldsymbol{A})$ 的各元素（按列排列）为对角元素的对角矩阵。

(3)两个向量的Kronecker积与向量化算子： $\boldsymbol{a}\otimes\boldsymbol{b}=vec(\boldsymbol{b}\boldsymbol{a}^T)$ 。

(4)矩阵 $\boldsymbol{A}_{m \times p}\boldsymbol{B}_{p \times q}\boldsymbol{C}_{q \times n}$ 乘积的向量化与Kronecker积的关系：
$\begin{aligned} vec(\boldsymbol{ABC}) &= (\boldsymbol{C}^T\boldsymbol{B}^T\otimes\boldsymbol{I}_m)vec(\boldsymbol{A}) \\ vec(\boldsymbol{ABC}) &= (\boldsymbol{C}^T\otimes\boldsymbol{A})vec(\boldsymbol{B}) \\ vec(\boldsymbol{ABC}) &= (\boldsymbol{I}_q\otimes\boldsymbol{AB})vec(\boldsymbol{C}) \end{aligned}$
(5)Kronecker积的向量化：设有 $\times m$ 矩阵 $\boldsymbol{X}$ 和 $\times q$ 矩阵 $\boldsymbol{Y}$ ，则：
$vec(\boldsymbol{X}\otimes\boldsymbol{Y})=(\boldsymbol{I}_m\otimes\boldsymbol{K}_{qp}\otimes\boldsymbol{I}_n)(vec(\boldsymbol{X}) \otimes vec(\boldsymbol{Y}))$

6、实矩阵微分运算

6.1矩阵微分的定义

$\times n$ 矩阵 $\boldsymbol{X}$ 的微分用符号 $d\boldsymbol{X}$ 表示，定义为 $d\boldsymbol{X}=[dx_{ij}]_{i=1,j=1}^{m,n}$ 。

6.2矩阵微分的常用计算公式

(1)常数矩阵的微分矩阵为零矩阵，即 $d\boldsymbol{A}=\boldsymbol{O}$ 。

(2)常数 $\alpha$ 与矩阵 $\boldsymbol{X}$ 的乘积的微分矩阵为 $d(\alpha\boldsymbol{X})=\alpha d\boldsymbol{X}$ 。

(3)矩阵转置的微分矩阵为 $d(\boldsymbol{X}^T)=(d\boldsymbol{X})^T$ 。

(4)两个矩阵函数的和（差）的微分矩阵为 $d(\boldsymbol{U}\pm\boldsymbol{V})=d\boldsymbol{U} \pm d\boldsymbol{V}$ 。

(5)两个矩阵函数乘积的微分矩阵为 $d(\boldsymbol{UV})=(d\boldsymbol{U})\boldsymbol{V}+\boldsymbol{U}(d\boldsymbol{V})$ 。

(6)矩阵的迹的微分矩阵为 $d(tr(\boldsymbol{X}))=tr(d\boldsymbol{X})$ 。

(7)行列式的微分为 $d|\boldsymbol{X}|=tr(\boldsymbol{X}^*d\boldsymbol{X})$ ，其中 $\boldsymbol{X}^*$ 表示 $\boldsymbol{X}$ 的伴随矩阵，在 $\boldsymbol{X}$ 可逆时又可以写作 $d|\boldsymbol{X}|=|\boldsymbol{X}|tr(\boldsymbol{X}^{-1}d\boldsymbol{X})$ 。

(8)矩阵的Hadamard积的微分矩阵为 $d(\boldsymbol{U}*\boldsymbol{V})=(d\boldsymbol{U})*\boldsymbol{V}+\boldsymbol{U}*(d\boldsymbol{V})$ 。

(9)矩阵的Kronecker积的微分矩阵为 $d(\boldsymbol{U}\otimes\boldsymbol{V})=(d\boldsymbol{U})\otimes\boldsymbol{V}+\boldsymbol{U}\otimes(d\boldsymbol{V})$ 。

(10)向量化函数的微分矩阵为 $d(vec(\boldsymbol{X}))=vec(d\boldsymbol{X})$ 。

(11)矩阵对数的微分矩阵为 $d(ln\boldsymbol{X})=\boldsymbol{X}^{-1}d\boldsymbol{X}$ 。

(12)逆矩阵的微分矩阵为 $d(\boldsymbol{X}^{-1})=-\boldsymbol{X}^{-1}(d\boldsymbol{X})\boldsymbol{X}^{-1}$ 。

(13)行列式对数的微分矩阵为 $d(ln|\boldsymbol{X}|)=tr(\boldsymbol{X}^{-1}d\boldsymbol{X})$ ，其中矩阵 $\boldsymbol{X}$ 可逆。

(14)逐元素函数的微分矩阵为 $d(f(\boldsymbol{X}))=f'(\boldsymbol{X})*d\boldsymbol{X}$ 。

参考资料

[1]知乎：《机器学习中的数学理论1：三步搞定矩阵求导》
[2]张贤达：《矩阵分析与应用》

grey_wings

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习中的数学：求导技术

符号约定xxx：标量x\boldsymbol{x}x：向量X\boldsymbol{X}X：矩阵tr(A)tr(\boldsymbol{A})tr(A)：矩阵A\boldsymbol{A}A的迹⟨A,B⟩\langle \boldsymbol{A},\boldsymbol{B} \rangle⟨A,B⟩：矩阵A\boldsymbol{A}A和矩阵B\boldsymbol{B}B的内积（数量积）A∗B\boldsymbol{A}*\boldsymbol{B}A∗B：矩阵A\boldsymbol{A
复制链接

扫一扫