矩阵论续集

工科给事中

已于 2023-07-15 22:43:13 修改

阅读量74

点赞数

文章标签：矩阵

于 2023-07-15 22:31:30 首次发布

本文链接：https://blog.csdn.net/weixin_53476134/article/details/131744962

版权

个人写作笔记，如有问题，请不吝赐教！

矩阵求导

还差一个最普适的情况——“矩阵对矩阵求导”没有分析，这种情况在神经网络中貌似特别常见。这里对这种情况的公式进行证明，证明方法与证明列向量的方式是完全一样的，不同之处在于，列向量在证明第二项时可以提取公因式产生矩阵分块，而在矩阵对矩阵求导中，不会得到矩阵分块，只能是矩阵直积，具体过程如下。
设矩阵 $\bm{A}\in\mathbb{C}^{l\times m}$ ， $\bm{B}\in\mathbb{C}^{m\times n}$ ， $\bm{W}\in\mathbb{C}^{p\times q}$ ，证明：
$\begin{align*} &\frac{\mathrm{d}\bm{AB}}{\mathrm{d}\bm{W}}=\frac{\mathrm{d}\bm{A}}{\mathrm{d}\bm{W}}\big(\bm{I}_p\otimes\bm{B}\big)+\big(\bm{I}_q\otimes\bm{A}\big)\frac{\mathrm{d}\bm{B}}{\mathrm{d}\bm{W}} \end{align*}$
根据矩阵对矩阵求导的定义，有：
$\begin{align*} \frac{\mathrm{d}\bm{AB}}{\mathrm{d}\bm{W}}&= \begin{bmatrix} \frac{\mathrm{d}\bm{AB}}{\mathrm{d}w_{11}}&\frac{\mathrm{d}\bm{AB}}{\mathrm{d}w_{21}}&\cdots&\frac{\mathrm{d}\bm{AB}}{\mathrm{d}w_{p1}}\\\\ \frac{\mathrm{d}\bm{AB}}{\mathrm{d}w_{12}}&\frac{\mathrm{d}\bm{AB}}{\mathrm{d}w_{22}}&\cdots&\frac{\mathrm{d}\bm{AB}}{\mathrm{d}w_{p2}}\\\\ \vdots&\vdots&&\vdots\\\\ \frac{\mathrm{d}\bm{AB}}{\mathrm{d}w_{1q}}&\frac{\mathrm{d}\bm{AB}}{\mathrm{d}w_{2q}}&\cdots&\frac{\mathrm{d}\bm{AB}}{\mathrm{d}w_{pq}} \end{bmatrix} \end{align*}$
由于各项形式完全一致，考虑第一项 $\displaystyle\frac{\mathrm{d}\bm{AB}}{\mathrm{d}w_{11}}$ 即可，这是一项纯量对向量求导，直接化简可得：
$\begin{align} \frac{\mathrm{d}\bm{AB}}{\mathrm{d}w_{11}}=\frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{11}}\bm{B}+\bm{A}\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{11}} \end{align}$
可知最终结果必含两项，先考虑由 $\displaystyle\frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{ij}}\bm{B}$ 代表的一项，即有：
$\begin{align*} &\begin{bmatrix} \frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{11}}\bm{B}&\frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{21}}\bm{B}&\cdots&\frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{p1}}\bm{B}\\\\ \frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{12}}\bm{B}&\frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{22}}\bm{B}&\cdots&\frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{p2}}\bm{B}\\\\ \vdots&\vdots&&\vdots\\\\ \frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{1q}}\bm{B}&\frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{2q}}\bm{B}&\cdots&\frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{pq}}\bm{B} \end{bmatrix}\\\\ &=\begin{bmatrix} \frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{11}}&\frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{21}}&\cdots&\frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{p1}}\\\\ \frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{12}}&\frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{22}}&\cdots&\frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{p2}}\\\\ \vdots&\vdots&&\vdots\\\\ \frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{1q}}&\frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{2q}}&\cdots&\frac{\mathrm{d}\bm{A}}{\mathrm{d}w_{pq}} \end{bmatrix}\cdot\big(\bm{I}_p\otimes\bm{B}\big)\\\\ &=\frac{\mathrm{d}\bm{A}}{\mathrm{d}\bm{W}}\big(\bm{I}_p\otimes\bm{B}\big) \end{align*}$
即为待证结果第一项，再考虑由 $\displaystyle\bm{A}\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{ij}}$ 代表的一项，有：
$\begin{align*} &\begin{bmatrix} \bm{A}\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{11}}&\bm{A}\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{21}}&\cdots&\bm{A}\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{p1}}\\\\ \bm{A}\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{12}}&\bm{A}\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{22}}&\cdots&\bm{A}\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{p2}}\\\\ \vdots&\vdots&&\vdots\\\\ \bm{A}\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{1q}}&\bm{A}\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{2q}}&\cdots&\bm{A}\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{pq}} \end{bmatrix}\\\\ &=\big(\bm{I}_q\otimes\bm{A}\big)\cdot\begin{bmatrix} \frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{11}}&\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{21}}&\cdots&\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{p1}}\\\\ \frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{12}}&\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{22}}&\cdots&\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{p2}}\\\\ \vdots&\vdots&&\vdots\\\\ \frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{1q}}&\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{2q}}&\cdots&\frac{\mathrm{d}\bm{B}}{\mathrm{d}w_{pq}} \end{bmatrix}\\\\ &=\big(\bm{I}_q\otimes\bm{A}\big)\frac{\mathrm{d}\bm{B}}{\mathrm{d}\bm{W}} \end{align*}$
综上，原公式得到了证明。

矩阵的迹

设矩阵 $\bm{A},\bm{B}\in\mathbb{C}^{n\times n}$ ， $\bm{W}\in\mathbb{C}^{p\times q}$

定义

对于方阵而言，定义矩阵的迹为主对角线上全体元素之和，即：
$\mathrm{tr}(\bm{A})=\sum_{i=1}^na_{ii}$

性质

讨论矩阵的迹时，只考虑方阵的情况，一般矩阵不讨论迹。
矩阵的迹等于矩阵全体特征值之和，即有：
$\mathrm{tr}(\bm{A})=\sum_{i=1}^n\lambda_i$
矩阵的迹满足乘积可换顺序，即：
$\mathrm{tr}(\bm{AB})=\mathrm{tr}(\bm{BA})$

微分性质

矩阵的迹就是一个纯量，因此求解时按一般纯量的求法即可。对于含有矩阵运算的迹，当微分变量也是方阵时，追迹计算与导数运算可以交换顺序，否则，没有简便的计算方法：
$\begin{align*} &\frac{\mathrm{d}}{\mathrm{d}\bm{W}}\mathrm{tr}(\bm{A})=\mathrm{tr}\Big(\frac{\mathrm{d}\bm{A}}{\mathrm{d}\bm{W}}\Big) \end{align*}$

矩阵的范数

$\displaystyle\forall\bm{A}\in\mathbb{C}^{m\times n}$ ，定义以下的范数：

矩阵原生范数

总和范数： $\displaystyle||\bm{A}||_M=\sum^n_{j=1}\sum^m_{i=1} |a_{ij}|$
F范数： $\displaystyle||\bm{A}||_F=\sum^n_{j=1}\sum^m_{i=1} |a_{ij}|^2$
G范数： $\displaystyle||\bm{A}||_G=n\cdot \max_{i,j}\sum^n_{i=1} |a_{ij}|$

向量范数导出的矩阵范数

矩阵的最大奇异值称为矩阵的谱半径，用 $\displaystyle\rho({\bm{A}})=\max\{s_i\}_{i=1}^{n}$ 表示。
行和范数： $\displaystyle||\bm{A}||_{\infty}=\max_j\sum^n_{j=1} |a_{ij}|$
列和范数： $\displaystyle||\bm{A}||_1=\max_j\sum^m_{i=1} |a_{ij}|$
谱范数： $\displaystyle||\bm{A}||_2=\max\{s_i\}_{i=1}^{n}$

矩阵范数的导数

矩阵范数大多不能直接求导，常见的能求导的范数有F范数，F范数的求法可由下式快捷算出：
$||\bm{A}||_F^2=\mathrm{tr}(\bm{A^{\mathrm{H}}A})$
简单起见，此处对范数进行平方，在常见的学习率正则化处理中，经常见到带有这种形式的误差项，对此平方求导，可得：
$\begin{align*} \frac{\mathrm{d}||\bm{A}||_F^2}{\mathrm{d}\bm{W}}&=\frac{\mathrm{d}\big[\mathrm{tr}(\bm{A^{\mathrm{H}}A})\big]}{\mathrm{d}\bm{W}}=\mathrm{tr}\Big(\frac{\mathrm{d}\bm{A^{\mathrm{H}}A}}{\mathrm{d}\bm{W}}\Big)\\\\ &=\mathrm{tr}\Big[\frac{\mathrm{d}\bm{A}^\mathrm{H}}{\mathrm{d}\bm{W}}\big(\bm{I}_p\otimes\bm{A}\big)+\big(\bm{I}_q\otimes\bm{A}^\mathrm{H}\big)\frac{\mathrm{d}\bm{A}}{\mathrm{d}\bm{W}}\Big] \end{align*}$
特别地，当 $\bm{W}\in\mathbb{C^{m\times m}}$ 即微分变量也是方阵时，根据追迹的乘积互换性，可以一步得到：
$\begin{align*} \frac{\mathrm{d}||\bm{A}||_F^2}{\mathrm{d}\bm{W}}&=\mathrm{tr}\Big[\frac{\mathrm{d}\bm{A}^\mathrm{H}}{\mathrm{d}\bm{W}}\big(\bm{I}_m\otimes\bm{A}\big)+\big(\bm{I}_m\otimes\bm{A}^\mathrm{H}\big)\frac{\mathrm{d}\bm{A}}{\mathrm{d}\bm{W}}\Big]\\\\ &=2\cdot\mathrm{tr}\Big[\frac{\mathrm{d}\bm{A}^\mathrm{H}}{\mathrm{d}\bm{W}}\big(\bm{I}_m\otimes\bm{A}\big)\Big] \end{align*}$

向量范数的导数

将矩阵退化为列向量，就可以得到向量范数倒数，这种情况更为常见。对于列向量 $\bm{Y}\in\mathrm{C}^{m\times1}$ 和 $\bm{X}\in\mathrm{C}^{n\times1}$ ，有：
$\begin{align*} \frac{\mathrm{d}||\bm{Y}||_2^2}{\mathrm{d}\bm{X}}&=\frac{\mathrm{d}\bm{Y}^\mathrm{H}}{\mathrm{d}\bm{X}}\big(\bm{I}_m\otimes\bm{Y}\big)+\big(\bm{I}_1\otimes\bm{Y}^\mathrm{H}\big)\frac{\mathrm{d}\bm{Y}}{\mathrm{d}\bm{X}}\\\\ &=2\bm{Y}^\mathrm{H}\frac{\mathrm{d}\bm{Y}}{\mathrm{d}\bm{X}} \end{align*}$
向量的范数定义与矩阵不一样， $\displaystyle||\bm{Y}||_2^2=\bm{Y}^\mathrm{H}\bm{Y}$ 不带有迹表达式，因此得到的结果略有区别，当 $\bm{Y=X}$ 时，就能得到凸优化中非常漂亮的一个式子了：
$\frac{\mathrm{d}||\bm{X}||_2^2}{\mathrm{d}\bm{X}}=2\bm{X}^\mathrm{H}$