矩阵求导（三）-- 一阶微分法

最新推荐文章于 2022-11-19 00:36:03 发布

长路漫漫2021

最新推荐文章于 2022-11-19 00:36:03 发布

阅读量1.9k

点赞数

分类专栏： Math 文章标签：矩阵线性代数迹函数行列式求导 Jacobian 矩阵

本文链接：https://blog.csdn.net/xq151750111/article/details/121026066

版权

Math 专栏收录该内容

20 篇文章 61 订阅

订阅专栏

1 矩阵的迹

1.1 定义

$\times n$ 的方阵 $\pmb{A}_{n \times n}$ 的主对角线元素之和就叫矩阵 $\pmb{A}$ 的迹(trace)，记作 $\mathbb{tr}(\pmb{A})$ ，即：
$\mathbb{tr}(\pmb{A})=a_{11} + a_{22} + \cdots + a_{nn} = \sum_{i=1}^n{a_{ii}} \tag{1-1}$
注：非方阵无迹的定义。

1.2 常用性质

1. 标量的迹
对于一个标量 $x$ ，可以看成是 $\times 1$ 的矩阵，它的迹就是它自身。
$x=\mathbb{tr}(x) \tag{1-2}$

2. 线性法则
相加再求迹等于求迹再相加，标量提外面。
$\mathbb{tr}(c_1\pmb{A}+c_2\pmb{B}) = c_1\mathbb{tr}(\pmb{A})+c_2\mathbb{tr}(\pmb{B}) \tag{1-3}$
其中， $c_1, c_2$ 为标量。

3. 转置
转置的迹等于原矩阵的迹，因为转置不会改变主对角线的元素，所以可以得到：
$\mathbb{tr}(\pmb{A})=\mathbb{tr}(\pmb{A}^T) \tag{1-4}$

4. 乘积的迹的本质
对于两个阶数都是 $\times n$ 的矩阵 $\pmb{A}_{m\times n},\pmb{B}_{m\times n},$ 其中一个矩阵乘以（左乘右乘都可以）另一个矩阵的转置的迹，本质是 $\pmb{A}_{m\times n},\pmb{B}_{m\times n},$ 两个矩阵对应位置的元素相乘并相加，可以理解为向量的点积在矩阵上的推广，即：
$\begin{aligned} \mathbb{tr}(\pmb{A}\pmb{B}^T) &= a_{11}b_{11}+a_{12}b_{12}+\cdots+a_{1n}b_{1n}\\ &+ a_{21}b_{21}+a_{22}b_{22}+\cdots+a_{2n}b_{2n}\\ &+ \cdots \\ &+ a_{m1}b_{m1}+a_{m2}b_{m2}+\cdots+a_{mn}b_{mn} \end{aligned} \tag{1-5}$

5. 交换律
        矩阵乘积位置互换，迹不变
$\mathbb{tr}(\pmb{A}\pmb{B})= \mathbb{tr}(\pmb{B}\pmb{A}) \tag{1-6}$
        其中， $\pmb{A}_{m \times n},\pmb{B}_{n \times m}$ ，等式两边都等于 $\sum_{i,j}^{m,n}a_{ij}b_{ji}$
$\mathbb{tr}(\pmb{A}\pmb{B}\pmb{C})=\mathbb{tr}(\pmb{C}\pmb{A}\pmb{B})=\mathbb{tr}(\pmb{B}\pmb{C}\pmb{A}) \tag{1-7}$
        其中， $\pmb{A}_{m \times n},\pmb{B}_{n \times p},\pmb{C}_{p \times m}$
6. 矩阵乘法/逐元素乘法交换
$\text{tr}(\pmb{A}^T(\pmb{B}\odot \pmb{C})) = \text{tr}((\pmb{A}\odot \pmb{B})^T\pmb{C})\tag{1-8}$
        其中， $\pmb{A}_{n \times n},\pmb{B}_{n \times n},\pmb{C}_{n \times n}$ ，等式两边都等于 $\sum_{i,j}^{n,n}a_{ij}b_{ij}c_{ij}$

2 矩阵微分

2.1 标量对向量的微分

        设 $f(\pmb{x}),\pmb{x}=[x_1,x_2,\cdots,x_n]^T$ ，可以看做多元函数，设其可微，则它的全微分为：
$\begin{aligned} \mathbb{d}f(\pmb{x}) &=\frac{\partial f}{\partial x_1}\mathbb{d}x_1+\frac{\partial f}{\partial x_2}\mathbb{d}x_2 + \cdots+\frac{\partial f}{\partial x_n}\mathbb{d}x_n\\\\ &= (\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\cdots,\frac{\partial f}{\partial x_n}) \begin{bmatrix} \mathbb{d}x_1 \\ \mathbb{d}x_2\\ \vdots \\ \mathbb{d}x_n \end{bmatrix} \end{aligned} \tag{2-1}$
        结果是标量，由式（1-2）可知，式（2-1）可以写成迹的形式，即：
$\begin{aligned} \mathbb{d}f(\pmb{x}) &=\mathbb{tr}((\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\cdots,\frac{\partial f}{\partial x_n}) \begin{bmatrix} \mathbb{d}x_1 \\ \mathbb{d}x_2\\ \vdots \\ \mathbb{d}x_n \end{bmatrix}) \end{aligned} \tag{2-2}$
        简记为：
$\mathbb{d}f(\pmb{x}) = \dfrac{\partial f(\pmb{x})}{{\partial\pmb{x}^T}}\mathbb{d}\pmb{x} = (\mathbb{d}\pmb{x})^T\dfrac{\partial f(\pmb{x})}{{\partial\pmb{x}}} \tag{2-3}$
        式中，
$\dfrac{\partial f(\pmb{x})}{{\partial\pmb{x}^T}} = [\frac{\partial f}{\partial x_1},\frac{\partial f}{\partial x_2},\cdots,\frac{\partial f}{\partial x_n}]\\ \quad \\ \mathbb{d}\pmb{x} = [\mathbb{d}x_1 \quad \mathbb{d}x_2 \quad \cdots \quad \mathbb{d}x_n]^T \tag{2-4}$
        对于向量变元的实值标量函数的全微分，由式（1-5）的意义，则式（2-2）可以写成：
$\begin{aligned} \mathbb{d}f(\pmb{x}) &= \dfrac{\partial f(\pmb{x})}{{\partial\pmb{x}^T}}\mathbb{d}\pmb{x} =\mathbb{tr}(\frac{\partial f(\pmb{x})}{\partial\pmb{x}^T} \mathbb{d}\pmb{x})\end{aligned} \tag{2-5}$

因此，通过矩阵微分可以得到Jacobian矩阵和梯度矩阵，即
$\mathbb{d}f(\pmb{x}) = \mathbb{tr}(\dfrac{\partial f(\pmb{x})}{\partial\pmb{x}^T} \mathbb{d}\pmb{x}) \iff \text{D}_{\boldsymbol{x}}f(\pmb{x}) = \dfrac{\partial f(\pmb{x})}{\partial\pmb{x}^T} = (\nabla_{\boldsymbol{x}}f(\pmb{x}))^T \tag{2-6}$

2.2 标量对矩阵的微分

        设 $f(\pmb{X}),\pmb{X}_{m\times n}=(x_{ij})_{i=1,j=1}^{m,n}$ ，它也是多元函数，设其可微，则它的全微分为：
$\begin{aligned} \mathbb{d}f(\pmb{X}) &=\frac{\partial f}{\partial x_{11}}\mathbb{d}x_{11}+\frac{\partial f}{\partial x_{12}}\mathbb{d}x_{12} + \cdots+\frac{\partial f}{\partial x_{1n}}\mathbb{d}x_{1n}\\ &+\frac{\partial f}{\partial x_{21}}\mathbb{d}x_{21}+\frac{\partial f}{\partial x_{22}}\mathbb{d}x_{22} + \cdots+\frac{\partial f}{\partial x_{2n}}\mathbb{d}x_{2n}\\ &+\cdots\\ &+\frac{\partial f}{\partial x_{m1}}\mathbb{d}x_{m1}+\frac{\partial f}{\partial x_{m2}}\mathbb{d}x_{m2} + \cdots+\frac{\partial f}{\partial x_{mn}}\mathbb{d}x_{mn} \end{aligned} \tag{2-7}$
        我们从这个结果中发现，它其实就是矩阵 $(\frac{\partial f}{\partial x_{ij}})_{i=1,j=1}^{m,n}$ 与矩阵 $(\mathbb{d}x_{ij})_{i=1,j=1}^{m,n}$ 对应位置的元素相乘并相加，由式（1-5）可知，式（2-7）也可以写成迹的形式，即：
$\begin{aligned} \mathbb{d}f(\pmb{X}) &=\mathbb{tr}( \begin{bmatrix} \frac{\partial f}{\partial x_{11}}&\frac{\partial f}{\partial x_{21}}&\cdots&\frac{\partial f}{\partial x_{m1}} \\ \frac{\partial f}{\partial x_{12}}&\frac{\partial f}{\partial x_{22}}& \cdots & \frac{\partial f}{\partial x_{m2}}\\ \vdots&\vdots&\vdots&\vdots\\ \frac{\partial f} {\partial x_{1n}}&\frac{\partial f}{\partial x_{2n}}&\cdots&\frac{\partial f}{\partial x_{mn}} \end{bmatrix}_{n\times m} \begin{bmatrix} \mathbb{d}x_{11} & \mathbb{d}x_{12} & \cdots & \mathbb{d}x_{1n} \\ \mathbb{d}x_{21} & \mathbb{d}x_{22} & \cdots & \mathbb{d}x_{2n} \\ \vdots&\vdots&\vdots&\vdots\\ \mathbb{d}x_{m1} & \mathbb{d}x_{m2} & \cdots & \mathbb{d}x_{mn} \end{bmatrix}_{m \times n} ) \end{aligned} \tag{2-8}$
        观察上面的结果，可以看到在 $t r ()$ 里，左边的矩阵其实就是矩阵变元的Jacobian 矩阵形式 $\text{D}_{\boldsymbol{X}}f(\pmb{X}) = \frac{\partial f(\boldsymbol{X})}{\partial \boldsymbol{X}^T_{m\times n}}$ ，而右边的矩阵就是 $\mathbb{d}\pmb{X}_{m \times n}$ ，所以式（2-8）可以写成：
$\begin{aligned} \mathbb{d}f(\pmb{X}) &=\mathbb{tr}(\frac{\partial f(\pmb{X})}{\partial\pmb{X}^T} \mathbb{d}\pmb{X})\end{aligned} \tag{2-9}$

因此，通过矩阵微分可以得到Jacobian矩阵和梯度矩阵，即
$\mathbb{d}f(\pmb{X}) = \mathbb{tr}(\dfrac{\partial f(\pmb{X})}{\partial\pmb{X}^T} \mathbb{d}\pmb{X}) \iff \text{D}_{\boldsymbol{X}}f(\pmb{X}) = \dfrac{\partial f(\pmb{X})}{\partial\pmb{X}^T} = (\nabla_{\boldsymbol{X}}f(\pmb{X}))^T \tag{2-10}$

所以，只要我们可以把一个矩阵变元的实值标量函数的全微分写成式（2-9），我们就找到了矩阵求导的结果。（已经有人证明，这样的结果是唯一的。即若 $\mathbb{d}f(\pmb{X}) =\mathbb{tr}(\pmb{A}_1\mathbb{d}\pmb{X}) = \mathbb{tr}(\pmb{A}_2\mathbb{d}\pmb{X})$ ，则 $\pmb{A}_1=\pmb{A}_2$ )

2.3 常用性质

2.3.1 四个法则

常数矩阵的矩阵微分
$\mathbb{d}\pmb{A}_{m \times n} = \pmb{0}_{m \times n} \tag{2-11}$
线性法则
$\mathbb{d}(c_1\pmb{F}(\pmb{X})+c_2\pmb{G}(\pmb{X})) = c_1\mathbb{d}\pmb{F}(\pmb{X})+c_2\mathbb{d}\pmb{G}(\pmb{X})（c_1, c_2 为常数）\tag{2-12}$
乘积法则
$\mathbb{d}(\pmb{F}(\pmb{X})\pmb{G}(\pmb{X}))=\mathbb{d}(\pmb{F}(\pmb{X}))\pmb{G}(\pmb{X}) + \pmb{F}(\pmb{X})\mathbb{d}\pmb{G}(\pmb{X})（\pmb{F}_{p \times q}(\pmb{X}),\pmb{G}_{q \times s}(\pmb{X})）\tag{2-13}$
更多个乘积的法则：
$\mathbb{d}(\pmb{F}(\pmb{X})\pmb{G}(\pmb{X})\pmb{H}(\pmb{X}))=\mathbb{d}(\pmb{F}(\pmb{X}))\pmb{G}(\pmb{X})\pmb{H}(\pmb{X}) + \pmb{F}(\pmb{X})\mathbb{d}(\pmb{G}(\pmb{X}))\pmb{H}(\pmb{X})+ \pmb{F}(\pmb{X})\pmb{G}(\pmb{X})\mathbb{d}\pmb{H}(\pmb{X}) \tag{2-14}$

注意： 此时的微分是矩阵，不能交换乘积的左右顺序。

转置法则
矩阵转置的微分等于矩阵微分的转置，即：
$\mathbb{d}(\pmb{X}^T) = (\mathbb{d}\pmb{X})^T \tag{2-15}$

2.3.2 常用公式

（1）常数矩阵与矩阵乘积的微分矩阵
$\mathbb{d}(\pmb{A}\pmb{X}\pmb{B})=\pmb{A}\mathbb{d}(\pmb{X})\pmb{B} \tag{2-16}$
         $\pmb{X}_{m\times n}$ 可以代入其他任意的矩阵函数，如 $\mathbb{d}(\pmb{A}\pmb{F}(\pmb{X})\pmb{B})=\pmb{A}\mathbb{d}(\pmb{F}(\pmb{X}))\pmb{B}$ 。
（2）矩阵 $\pmb{X}$ 的迹的矩阵微分 $\mathbb{d}(tr(\pmb{X}))$ 等于矩阵微分 $\mathbb{d}\pmb{X}$ 的迹 $tr(d\pmb{X})$ ，即
$\mathbb{d}(tr(\pmb{X})) = tr(\mathbb{d}\pmb{X}) \tag{2-17}$
        特别地， $\pmb{X}_{m\times n}$ 可以代入其他任意的矩阵函数，如 $\pmb{F}(\pmb{X})$ 的迹的矩阵微分为 $\mathbb{d}(tr(\pmb{F}(\pmb{X}))) = tr(\mathbb{d}(\pmb{F}(\pmb{X})))$ 。
（3）行列式
$\mathbb{d}|\pmb{X}|= |\pmb{X}|\mathbb{tr}(\pmb{X}^{-1}\mathbb{d}\pmb{X}) = \mathbb{tr}(|\pmb{X}|\pmb{X}^{-1}\mathbb{d}\pmb{X}) \tag{2-18}$
证明：
        行列式可以按照一行展开，即一行中每个元素乘以他的代数余子式然后求和，我们按照元素 $x_{ij}$ 所在的第 $i$ 行展开：
$|\pmb{X}|=x_{i1}\pmb{A}_{i1}+x_{i2}\pmb{A}_{i2}+\cdots+x_{in}\pmb{A}_{in} \tag{2-19}$
        因此，行列式对元素 $x_{ij}$ 的偏导，即为该元素对应的代数余子式。
$\frac{\partial |\pmb{X}|}{\partial x_{ij}} = \pmb{A}_{ij} \tag{2-20}$
        因此，行列式对矩阵求导的结果为：
$\begin{aligned} \frac{\partial |\pmb{X}|}{\partial \pmb{X}^T} &= \begin{bmatrix} A_{11} & A_{21} & \cdots & A_{n1} \\ A_{12} & A_{22} & \cdots & A_{n2} \\ \vdots & \vdots & \ddots & \vdots \\ A_{1n} & A_{2n} & \cdots & A_{nn} \\ \end{bmatrix} \end{aligned} \tag{2-21}$
        这个结果其实就是伴随矩阵 $\pmb{X}^*$ ，由伴随矩阵和逆矩阵的关系
$\pmb{X}^{-1}=\frac{\pmb{X}^*}{|\pmb{X}|} \tag{2-22}$
        代入式（2-10）可得：
$\begin{aligned} \mathbb{d}|\pmb{X}| &=\mathbb{tr}(\frac{\partial |\pmb{X}|}{\partial\pmb{X}^T} \mathbb{d}\pmb{X}) \\\\ &=\mathbb{tr}(|\pmb{X}|\pmb{X}^{-1}\mathbb{d}\pmb{X}) \end{aligned} \tag{2-23}$
        又因为行列式是标量，由式（1-2），可以提到迹的外面，得：
$\mathbb{d}|\pmb{X}|= |\pmb{X}|\mathbb{tr}(\pmb{X}^{-1}\mathbb{d}\pmb{X}) = \mathbb{tr}(|\pmb{X}|\pmb{X}^{-1}\mathbb{d}\pmb{X}) \tag{2-24}$

特别地， $\pmb{X}_{m\times n}$ 可以代入其他任意的矩阵函数，如 $\pmb{F}(\pmb{X})$ 的行列式的矩阵微分为 $\mathbb{d}|\pmb{F}(\pmb{X})|= |\pmb{F}(\pmb{X})|\mathbb{tr}(\pmb{F}(\pmb{X})^{-1}\mathbb{d}\pmb{F}(\pmb{X})) = \mathbb{tr}(|\pmb{F}(\pmb{X})|\pmb{F}(\pmb{X})^{-1}\mathbb{d}\pmb{F}(\pmb{X}))$ 。

（4）逆矩阵
$\mathbb{d}(\pmb{X}^{-1})=-\pmb{X}^{-1}\mathbb{d}(\pmb{X})\pmb{X}^{-1} \tag{2-25}$
证明：
        因为
$\pmb{X}\pmb{X}^{-1}=\pmb{I} \tag{2-26}$
        而常数矩阵微分为 $\pmb{O}$ ，两边同时取矩阵微分得：
$\mathbb{d}(\pmb{X})\pmb{X}^{-1}+\pmb{X}\mathbb{d}(\pmb{X}^{-1}) =\pmb{0} \tag{2-27}$
        等式两边左乘 $\pmb{X}^{-1}$ 即得到结果。

        特别地， $\pmb{X}_{m\times n}$ 可以代入其他任意的矩阵函数，如 $\pmb{F}(\pmb{X})$ 的逆的矩阵微分为 $\mathbb{d}(\pmb{F}(\pmb{X})^{-1})=-\pmb{F}(\pmb{X})^{-1}\mathbb{d}(\pmb{F}(\pmb{X}))\pmb{F}(\pmb{X})^{-1}$ 。
（5）矩阵函数的Kronecker积的微分矩阵为
$\mathbb{d}(\pmb{U} \otimes \pmb{V}) = \mathbb{d}(\pmb{U}) \otimes \pmb{V} + \pmb{U} \otimes \mathbb{d}(\pmb{V}) \tag{2-28}$
（6）矩阵函数的Hadamard积（逐元素乘法）的微分矩阵为
$\mathbb{d}(\pmb{U} \odot \pmb{V})= \mathbb{d}(\pmb{U}) \odot \pmb{V} + \pmb{U} \odot \mathbb{d}(\pmb{V}) \tag{2-29}$
        逐元素函数： $\sigma(\pmb{X}) = [\sigma(x_{ij})]$ 是逐元素标量函数运算，则 $\mathbb{d}\sigma(\pmb{X}) = \sigma'(\pmb{X}) \odot \mathbb{d}\pmb{X}$ ， $\sigma'(\pmb{X})=[\sigma'(x_{ij})]$ 是逐元素求导数，如：
$X=\left[\begin{matrix}x_{11} & x_{12} \\ x_{21} & x_{22}\end{matrix}\right], d \sin(\pmb{X}) = \left[\begin{matrix}\cos x_{11} dx_{11} & \cos x_{12} d x_{12}\\ \cos x_{21} d x_{21}& \cos x_{22} dx_{22}\end{matrix}\right] = \cos(\pmb{X})\odot d\pmb{X} \tag{2-30}$
（7）复合函数
        假设有这样的依赖关系： $\pmb{X}\to \pmb{Y} \to f$ ，在微积分中有标量求导的链式法则 $\frac{\partial f}{\partial x} = \frac{\partial f}{\partial y} \frac{\partial y}{\partial x}$ ，但这里我们不能随意沿用标量的链式法则，由于这里的自变量和因变量变成了矩阵，要考虑相容性。但我们直接从微分入手建立复合法则：先写出 $\begin{aligned} \mathbb{d}f(\pmb{X}) &=\mathbb{tr}(\frac{\partial f}{\partial\pmb{Y}^T} \mathbb{d}\pmb{Y})\end{aligned}$ ，再将 $d\pmb{Y}$ 用 $d\pmb{X}$ 表示出来代入，并使用迹函数技巧将其他项交换至 $d\pmb{X}$ 左侧，即可得到 $\dfrac{\partial f}{\partial \boldsymbol{X}}$ 。

补充： 在求解过程中，我们会用到几个概念，建议自行学习一下，分别是 Hadamard 积、Kronecker 积。

若标量函数 $f$ 是矩阵 $\pmb{X}$ 经加减乘法、逆、行列式、逐元素函数等运算构成，则使用相应的运算法则对 $f$ 求微分，再使用迹技巧给 $d f$ 套上迹并将其它项交换至 $d\pmb{X}$ 左侧，对照导数与微分的联系 $\begin{aligned} \mathbb{d}f(\pmb{X}) &=\mathbb{tr}(\frac{\partial f(\pmb{X})}{\partial\pmb{X}^T} \mathbb{d}\pmb{X})\end{aligned}$ ，即能得到导数。特别地，若矩阵退化为向量，对照导数与微分的联系 $\begin{aligned} \mathbb{d}f(\pmb{x}) &=\mathbb{tr}(\frac{\partial f(\pmb{x})}{\partial\pmb{x}^T} \mathbb{d}\pmb{x})\end{aligned}$ ，即能得到导数

3 实战练习

3.1 基础题目

        上一篇，我们用定义法证明了： $\dfrac{\partial( \pmb{a}^T\pmb{X}\pmb{X}^T\pmb{b})}{\partial{\pmb{X}}} = \pmb{a}\pmb{b}^T\pmb{X}+\pmb{b}\pmb{a}^T\pmb{X}$ ，下面我们用矩阵微分的方法进行证明。由于这是第一个案例，写的尽可能详细。
证明：
第一步：根据标量的迹（式2-1），写成迹函数的形式
$\mathbb{d}(\pmb{a}^T\pmb{X}\pmb{X}^T\pmb{b})= \mathbb{tr}(\mathbb{d}(\pmb{a}^T\pmb{X}\pmb{X}^T\pmb{b}))\tag{3-1}$
第二步：使用矩阵微分的运算法则，化简为迹函数微分矩阵的规范形式
        由常数矩阵与矩阵乘积的微分矩阵的关系（式2-16）可得：
$\begin{aligned} \mathbb{d}(\pmb{a}^T\pmb{X}\pmb{X}^T\pmb{b}) &= \mathbb{tr}(\mathbb{d}(\pmb{a}^T\pmb{X}\pmb{X}^T\pmb{b})) \\ &= \mathbb{tr}(\pmb{a}^T\mathbb{d}(\pmb{X}\pmb{X}^T)\pmb{b}) \end{aligned} \tag{3-2}$
        由矩阵微分的乘积法则（式2-13）可得：
$\begin{aligned} \mathbb{d}(\pmb{a}^T\pmb{X}\pmb{X}^T\pmb{b}) &= \mathbb{tr}(\pmb{a}^T\mathbb{d}(\pmb{X}\pmb{X}^T)\pmb{b}) \\ &= \mathbb{tr}[\pmb{a}^T(\mathbb{d}(\pmb{X})\pmb{X}^T+\pmb{X}\mathbb{d}\pmb{X}^T)\pmb{b}] \end{aligned} \tag{3-3}$
        由矩阵的迹的线性法则（式1-3）可得：
$\begin{aligned} \mathbb{d}(\pmb{a}^T\pmb{X}\pmb{X}^T\pmb{b}) &= \mathbb{tr}[\pmb{a}^T(\mathbb{d}(\pmb{X})\pmb{X}^T+\pmb{X}\mathbb{d}\pmb{X}^T)\pmb{b}] \\\ &= \mathbb{tr}(\pmb{a}^T\mathbb{d}(\pmb{X})\pmb{X}^T\pmb{b})+\mathbb{tr}(\pmb{a}^T\pmb{X}\mathbb{d}(\pmb{X}^T)\pmb{b}) \end{aligned} \tag{3-4}$
由矩阵微分的转置法则（式2-15）可得：
$\begin{aligned} \mathbb{d}(\pmb{a}^T\pmb{X}\pmb{X}^T\pmb{b}) &= \mathbb{tr}(\pmb{a}^T\mathbb{d}(\pmb{X})\pmb{X}^T\pmb{b})+\mathbb{tr}(\pmb{a}^T\pmb{X}\mathbb{d}(\pmb{X}^T)\pmb{b}) \\ &= \mathbb{tr}(\pmb{a}^T\mathbb{d}(\pmb{X})\pmb{X}^T\pmb{b})+\mathbb{tr}(\pmb{a}^T\pmb{X}(\mathbb{d}\pmb{X})^T\pmb{b}) \end{aligned} \tag{3-5}$
        由矩阵的迹的交换律（式1-6）可得：
$\begin{aligned} \mathbb{d}(\pmb{a}^T\pmb{X}\pmb{X}^T\pmb{b}) &= \mathbb{tr}(\pmb{a}^T\mathbb{d}(\pmb{X})\pmb{X}^T\pmb{b})+\mathbb{tr}(\pmb{a}^T\pmb{X}(\mathbb{d}\pmb{X})^T\pmb{b}) \\ &= \mathbb{tr}(\pmb{X}^T\pmb{b}\pmb{a}^T\mathbb{d}\pmb{X}) + \mathbb{tr}(\pmb{b}\pmb{a}^T\pmb{X}(\mathbb{d}\pmb{X})^T)\\ &= \mathbb{tr}(\pmb{X}^T\pmb{b}\pmb{a}^T\mathbb{d}\pmb{X}) + \mathbb{tr}((\pmb{b}\pmb{a}^T\pmb{X})^T\mathbb{d}\pmb{X})\\ &= \mathbb{tr}(\pmb{X}^T\pmb{b}\pmb{a}^T\mathbb{d}\pmb{X}) + \mathbb{tr}(\pmb{X}^T\pmb{a}\pmb{b}^T\mathbb{d}\pmb{X}) \end{aligned} \tag{3-6}$
        由矩阵的迹的线性法则（式1-3）可得：
$\begin{aligned} \mathbb{d}(\pmb{a}^T\pmb{X}\pmb{X}^T\pmb{b}) &= \mathbb{tr}(\pmb{X}^T\pmb{b}\pmb{a}^T\mathbb{d}\pmb{X}) + \mathbb{tr}(\pmb{X}^T\pmb{a}\pmb{b}^T\mathbb{d}\pmb{X}) \\ &= \mathbb{tr}((\pmb{X}^T\pmb{b}\pmb{a}^T+\pmb{X}^T\pmb{a}\pmb{b}^T)\mathbb{d}\pmb{X}) \end{aligned} \tag{3-7}$
第三步：根据导数与微分的联系，写出最终结果
$\begin{aligned} \frac{\partial( \pmb{a}^T\pmb{X}\pmb{X}^T\pmb{b})}{\partial{\pmb{X}^T}} &=\pmb{X}^T\pmb{b}\pmb{a}^T+\pmb{X}^T\pmb{a}\pmb{b}^T \\ \frac{\partial( \pmb{a}^T\pmb{X}\pmb{X}^T\pmb{b})}{\partial{\pmb{X}}} &= \pmb{a}\pmb{b}^T\pmb{X}+\pmb{b}\pmb{a}^T\pmb{X} \\\\ \end{aligned} \tag{3-8}$

3.2 矩阵的标量函数：迹

        例： $\text{tr}(\boldsymbol{Y}^T \boldsymbol{MY}), \boldsymbol{Y} = \sigma(\boldsymbol{WX})$ ，求 $\dfrac{\partial f}{\partial \pmb{X}}$ 。其中 $\pmb{W}$ 是 $\times m$ 矩阵， $\pmb{X}$ 是 $\times n$ 矩阵， $\pmb{Y}$ 是 $\times n$ 矩阵， $\pmb{M}$ 是 $\times l$ 对称矩阵， $\sigma$ 是逐元素函数， $f$ 是标量。
解：
第一步：先求 $\dfrac{\partial f}{\partial \pmb{Y}}$ ,
$\text{tr}((d\boldsymbol{Y})^T\boldsymbol{MY}) + \text{tr}(\boldsymbol{Y}^T\boldsymbol{M}d\boldsymbol{Y}) = \text{tr}(\boldsymbol{Y}^T\boldsymbol{M}^Td\boldsymbol{Y}) + \text{tr}(\boldsymbol{Y}^T\boldsymbol{M}d\boldsymbol{Y}) = \text{tr}(\boldsymbol{Y}^T(\boldsymbol{M}+\boldsymbol{M}^T)d\boldsymbol{Y}) \tag{3-9}$
        根据导数与微分的联系，而 $\pmb{M}$ 是 $\times l$ 对称矩阵，可得：
$\frac{\partial f}{\partial \boldsymbol{Y}}=(\boldsymbol{M}+\boldsymbol{M}^T)\boldsymbol{Y} = 2\boldsymbol{MY} \tag{3-10}$
第二步：将 $d\boldsymbol{Y}$ 用 $d\boldsymbol{X}$ 表示出来代入，并使用矩阵乘法/逐元素乘法交换（式1-8），可得：
$\text{tr}\left(\frac{\partial f}{\partial \boldsymbol{Y}}^T (\sigma'(\boldsymbol{WX})\odot (\boldsymbol{W}d\boldsymbol{X}))\right) = \text{tr}\left(\left(\frac{\partial f}{\partial \boldsymbol{Y}} \odot \sigma'(\boldsymbol{WX})\right)^T \boldsymbol{W} d\boldsymbol{X}\right)\tag{3-11}$
第三步：根据导数与微分的联系，可得：
$\frac{\partial f}{\partial \boldsymbol{X}}=\boldsymbol{W}^T \left(\frac{\partial f}{\partial \boldsymbol{Y}}\odot \sigma'(\boldsymbol{WX})\right)=\boldsymbol{W}^T((2\boldsymbol{M}\sigma(\boldsymbol{WX}))\odot\sigma'(\boldsymbol{WX}))\tag{3-12}$
        下图汇总了几种典型的迹函数的微分矩阵与梯度矩阵的对应关系，为了省事的话话，可以查表。

图1 几种迹函数的微分矩阵与Jacobian矩阵

3.3 矩阵的标量函数：行列式

$\begin{aligned} \frac{\partial|\pmb{X}^3|}{\partial \pmb{X}} &=\frac{\partial|\pmb{X}|^3}{\partial \pmb{X}} =3|\pmb{X}|^3(\pmb{X}^{-1})^T = 3|\pmb{X}^3|(\pmb{X}^{-1})^T \end{aligned} \tag{3-13}$
第一步：写成迹函数的形式
        对于 $n$ 阶方阵 $\pmb{A}, \pmb{B}$ ，有 $|\pmb{A}\pmb{B}|=|\pmb{A}| |\pmb{B}|$ ，则
$\begin{aligned} \mathbb{d}|\pmb{X}^3| =\mathbb{d}(|\pmb{X}|^3)= \mathbb{tr}(\mathbb{d}(|\pmb{X}|^3)) \end{aligned} \\\ \tag{3-14}$
第二步：化简为迹函数微分矩阵的规范形式
        由于这里是一个复合函数的全微分，可令： $z=|\pmb{X}|^3,u=|\pmb{X}|$ ，则
$\begin{aligned} \mathbb{d}(|\pmb{X}|^3) &= \mathbb{tr}(\mathbb{d}(|\pmb{X}|^3)) \\ &= \mathbb{tr}(\mathbb{d}z) \\ &= \mathbb{tr}(\mathbb{d}(u^3)) \\ &= \mathbb{tr}(3u^2\mathbb{d}u) \\ &= \mathbb{tr}(3|\pmb{X}|^2\mathbb{d}|\pmb{X}|) \end{aligned} \tag{3-15}$
        由矩阵行列式的微分可得：
$\begin{aligned} \mathbb{d}(\mathbb{tr}(|\pmb{X}|^3)) &= \mathbb{tr}(3|\pmb{X}|^2\mathbb{d}|\pmb{X}|) \\ &= \mathbb{tr}(3|\pmb{X}|^2|\pmb{X}|\mathbb{tr}(\pmb{X}^{-1}\mathbb{d}\pmb{X}) ) \\ &= \mathbb{tr}(3|\pmb{X}|^3\mathbb{tr}(\pmb{X}^{-1}\mathbb{d}\pmb{X}) ) \end{aligned} \tag{3-16 }$
        由矩阵的迹的线性法则（式1-3）可得：
$\begin{aligned} \mathbb{d}(\mathbb{tr}(|\pmb{X}|^3)) &= \mathbb{tr}(3|\pmb{X}|^3\mathbb{tr}(\pmb{X}^{-1}\mathbb{d}\pmb{X}) ) \\ &= 3|\pmb{X}|^3\mathbb{tr}(\pmb{X}^{-1}\mathbb{d}\pmb{X}) \\ &= \mathbb{tr}(3|\pmb{X}^3|\pmb{X}^{-1}\mathbb{d}\pmb{X}) \end{aligned} \tag{3-17 }$
第三步：根据导数与微分的联系，可得：
$\begin{aligned} \frac{\partial|\pmb{X}^3|}{\partial \pmb{X}^T} &=\frac{\partial|\pmb{X}|^3}{\partial \pmb{X}^T} =3|\pmb{X}|^3\pmb{X}^{-1} = 3|\pmb{X}^3|\pmb{X}^{-1} \\ \frac{\partial|\pmb{X}^3|}{\partial \pmb{X}} &=\frac{\partial|\pmb{X}|^3}{\partial \pmb{X}} =3|\pmb{X}|^3(\pmb{X}^{-1})^T = 3|\pmb{X}^3|(\pmb{X}^{-1})^T \end{aligned} \tag{3-18}$

下图汇总了一些典型的行列式函数的微分矩阵与梯度矩阵的对应关系，为了省事的话话，可以查表。

图2 几种行列式函数的实微分矩阵与Jacobian矩阵

使用矩阵微分，可以在不对向量或矩阵中的某一元素单独求导再拼接，因此会比较方便，所以建议大家多找几道习题联系，争取熟练使用上面矩阵微分的性质，以及迹函数的性质。

参考

矩阵求导术（上）：https://zhuanlan.zhihu.com/p/24709748
矩阵求导公式的数学推导（矩阵求导——进阶篇）：https://zhuanlan.zhihu.com/p/288541909
矩阵微分笔记：https://www.iteye.com/blog/cherishlc-1765932
Matrix Differentiation：https://atmos.washington.edu/~dennis/MatrixCalculus.pdf
Matrix Calculus：http://www.ee.ic.ac.uk/hp/staff/dmb/matrix/calculus.html

长路漫漫2021

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
矩阵求导（三）-- 一阶微分法

矩阵微分是计算标量、向量或者矩阵函数关于其向量或矩阵变元的偏导的有效数学工具。本篇主要介绍矩阵的迹、一阶实矩阵微分的有关理论、矩阵微分的运算法则及应用。熟练掌握这一节的方法，对于标量对矩阵和向量的求导可以轻松求解。
复制链接

扫一扫