807补充（一）（矩阵微分篇）

总是摸鱼的猫

已于 2024-01-10 18:36:03 修改

阅读量1.3k

点赞数 28

分类专栏：模式识别补充文章标签： python 机器学习算法

于 2023-12-29 23:18:25 首次发布

本文链接：https://blog.csdn.net/weixin_54255111/article/details/135300025

版权

模式识别补充专栏收录该内容

11 篇文章 6 订阅

订阅专栏

在这里插入图片描述

注：在本文中不考虑复数矩阵的可能性，仅考虑实矩阵

符号约定

$\mathbf{X},\mathbf{A},\mathbf{B}$	矩阵	$\mathbf{F(\cdot)}$	输出为矩阵的函数
$\mathbf{x},\mathbf{y},\mathbf{z}$	向量	$\mathbf{f(\cdot)},\mathbf{g(\cdot)}$	输出为向量的函数
$x, y$	标量	$\cdot)$	输出为标量的函数

注：如无特殊说明，本文中的向量都是列向量。
$\mathbf{x} = [x_1 ,x_2 , \cdots , x_n]^T$

一.矩阵的迹

$\begin{aligned} &a=\mathrm{tr}(a)\\ &\mathrm{tr}(\mathbf{A})=\mathrm{tr}(\mathbf{A^T})\\ &\mathrm{tr}(\mathbf{AB})=\mathrm{tr}(\mathbf{BA})\\ &\mathrm{tr}(\mathbf{A-B})=\mathrm{tr}(\mathbf{A})-\mathrm{tr}(\mathbf{B})\\ &\mathrm{tr}(\mathbf{A+B})=\mathrm{tr}(\mathbf{A})+\mathrm{tr}(\mathbf{B}) \end{aligned}$

二.范数

和标量不同，我们不能简单地按照元素大小来比较不同的向量和矩阵．向量范数和矩阵范数给出了一种长度计量方式．

1.1 向量范数与内积

定义 1.1 (范数) 称一个从向量空间 $\Bbb{R^n}$ 到实数域 $\Bbb R$ 的非负函数 ∥ · ∥ 为范数，如果它满足：

正定性：对于所有的 $\mathbf v \in \Bbb R^n，有 ||\mathbf v|| \geq 0，且||\mathbf v|| = 0 当且仅当 \mathbf v = 0$ ;
齐次性：对于所有的 $\mathbf v \in \Bbb R^n 和 \alpha \in \Bbb R，有||\alpha\mathbf v|| = |\alpha|*||\mathbf v||$ ；
三角不等式：对于所有的 $\mathbf v，\mathbf w \in \Bbb R^ n，有 ||\mathbf v + \mathbf w|| \leq ||\mathbf v|| + ||\mathbf w||$ ;

最常用的向量范数为 $L_p$ 范数 ( $\geq 1$ )
$||\mathbf v||_p = (|v_1| ^p + |v_2|^ p + ··· + |v_n|^ p )^{\frac{1}{p}}$
当 $p = \infty$ 时， $L_\infty$ 范数定义为
$||\mathbf v||_\infty = max_i|v_i|$
当 $p = 0$ 时， $L_0$ 范数的定义为向量中非零元素的个数，注意0范数并不是一个范数， $L_0$ 范数并不满足这三条性质中的齐次性,它只是一种虚拟的范数。

其中 $2,\infty$ 的情形最重要，分别记为 $_1$ , $_2$ 和 $||_\infty$ ．在不引起歧义的情况下，我们有时省略 $L_2$ 范数的角标，记为 $∣ ∣ \cdot ∣ ∣$ ．在最优化问题算法构造和分析中，也常常遇到由正定矩阵 $\mathbf A$ 诱导的范数，即 $||\mathbf x||_\mathbf A \overset{def}{=} \sqrt {\mathbf x^T\mathbf A\mathbf x}$ ．根据正定矩阵的定义，很容易验证 $||_\mathbf A$ 定义了一个范数．

$n阶向量\mathbf x与\mathbf y$ 之间的内积定义为
$\langle\mathbf x,\mathbf y\rangle\overset{def}{=}\mathbf x^T\mathbf y$
称为典范内积。另外还可采用加权内积
$\langle\mathbf x,\mathbf y\rangle\overset{def}{=}\mathbf x^T\mathbf A\mathbf y$
其中加权矩阵 $\mathbf A$ 是正定矩阵，即满足 $\mathbf x^T\mathbf A\mathbf x >0，\forall \mathbf x \neq 0$

1.2矩阵向量化

矩阵 $\mathbf A\in \Bbb R^{m\times n}$ 的向量化 $\mathrm{vec(\mathbf A)}$ 是一线性变化，他将矩阵 $\mathbf A=[a_{i,j}]$ 的元素按列堆栈，排列成一个 $mn\times 1$ 的向量
$\mathrm{vec(\mathbf A)}=[a_{11},\cdots,a_{m,1},\cdots,a_{1,n},\cdots,a_{m,n}]^T$
矩阵也可按列堆栈，排列成一个 $\times mn$ 的向量
$\mathrm{rvec(\mathbf A)}=[a_{11},\cdots,a_{m,1},\cdots,a_{1,n},\cdots,a_{m,n}]$
显然，矩阵的向量化和行向量化之间存在如下关系
$\mathbf{rvec(\mathbf A)}=(\mathrm{vec(\mathbf A^T)})^T$
显然对于一个 $m\times n$ 矩阵，向量 $\mathrm{vec(\mathbf A^T)}$ 与 $\mathrm{vec(\mathbf A)}$ 含有相同的元素，但是排列次序不同，因此存在一个唯一的 $mn\times mn$ 置换矩阵，可以将一个矩阵的向量化变换为其转置矩阵的向量化。这一置换矩阵称为交换矩阵，记作 $\mathbf K_{mn}$ 定义为
$\mathbf K_{mn}\mathrm{vec(\mathrm A)}=\mathrm{vec(\mathrm A^T)}$
类似地，可以将转置矩阵的向量化 $\mathrm{vec(\mathrm A^T)}$ 变换为原矩阵的向量化 $\mathrm{vec(\mathrm A)}$ 的交换矩阵是一个 $nm\times nm$ 置换矩阵，记作 $\mathbf K_{nm}$ ,定义为
$\mathbf K_{nm}\mathrm{vec(\mathrm A^T)}=\mathrm{vec(\mathrm A)}$

$mn\times mn$ 交换矩阵 $\mathbf K_{mn}$ 具有以下常用性质
$\begin{aligned} (1)&\mathbf K_{mn}\mathrm{vec(\mathrm A)}=\mathrm{vec(\mathrm A^T)}和\mathbf K_{nm}\mathrm{vec(\mathrm A^T)}=\mathrm{vec(\mathrm A)}\\ (2)&\mathbf K_{mn}^{-1}=\mathbf K_{nm}\\ (3)&\mathbf K_{mn}^T=\mathbf K_{nm}\\ (4)&\mathbf K_{1n}=\mathbf K_{n1}=\mathbf I_{n} \end{aligned}$

1.3矩阵范数与内积

将向量的内积与范数定义推广即可得出矩阵范数与内积。令矩阵 $A=[\mathbf a_1,\cdots,\mathbf a_n]，B=[\mathbf b_1,\cdots,\mathbf b_n]\in \Bbb R^{m\times n}$ 将这两个矩阵分别拉长为 $mn\times 1$ 的向量。
$\mathbf a = \mathrm{vec}(\mathbf A)=\begin{bmatrix}a_{11} \\ a_{12} \\ \cdots \\ a_{mn}\end{bmatrix}\\ \mathbf b = \mathrm{vec}(\mathbf B)=\begin{bmatrix}b_{11} \\ b_{12} \\ \cdots \\ b_{mn}\end{bmatrix}$
矩阵的内积记作 $\lang\mathbf A,\mathbf B\rang$ ,定义为两拉长向量的内积
$\langle\mathbf A,\mathbf B\rangle=\langle\mathrm{vec}(\mathbf A),\mathrm{vec}(\mathbf B)\rangle=\mathrm{tr}(\mathbf A^T \mathbf B)=\mathrm{vec}(\mathbf A)^T\mathrm{vec}(\mathbf B)$

定义 1.2 (范数) 称一个从矩阵空间 $\Bbb{R^{m\times n}}$ 到实数域 $\Bbb R$ 的非负函数 ∥ · ∥ 为范数，如果它满足：

正定性：对于所有的 $\mathbf A \in \Bbb R^n，有 ||\mathbf A|| \geq 0，且||\mathbf A|| = 0 当且仅当 \mathbf A = 0$ ;
齐次性：对于所有的 $\mathbf A \in \Bbb R^n 和 \alpha \in \Bbb R，有||\alpha\mathbf A|| = |\alpha|*||\mathbf A||$ ；
三角不等式：对于所有的 $\mathbf A，\mathbf B \in \Bbb R^ {m\times n}，有 ||\mathbf A + \mathbf B|| \leq ||\mathbf A|| + ||\mathbf B||$ ;
两个矩阵乘积的范数小于等于两个矩阵范数的乘积： $||\mathbf A\mathbf B||\leq ||\mathbf A||*||\mathbf B||$

利用矩阵向量化算子 $\mathrm{vec}$ ,向量的 $L_P$ 范数可以比较容易地推广到矩阵的 $L_P$ 范数，常用 p = 1, 2 的情形

当 p = 1 时，矩阵 $\mathbf A \in R^{m\times n }的L_1$ 范数定义为
$||\mathbf A||_1 = \sum_{i,j}|a_{i,j}|$
即 $||\mathbf A||_1$ 为 $\mathbf A$ 中所有元素绝对值的和

当 p = 2 时，此时得到的是矩阵的 $F r o b e n i u s$ 范数（下称 F 范数），记为 $A||_F$ ．它可以看成是向量的 $L_2$ 范数的推广，即所有元素平方和开根号：
$||\mathbf A||_F = \sqrt{Tr(\mathbf A^T\mathbf A)}=\sqrt{\sum_{i,j}a_{i,j}^2}$
除了从向量范数直接推广以外，矩阵范数还可以由向量范数诱导出来，一般称这种范数为算子范数.定义为
$||\mathbf A||_P\overset{def}{=}max\frac{||\mathbf A\mathbf x||_P}{||\mathbf x||_P}$
利用拉格朗日乘子即可解出

这两种定义得出的结果是相同的。

三.梯度

定义 2.2 (梯度) 给定函数 $\mathbf R^n → \mathbf R$ ，且 $f$ 在点 $\mathbf x$ 的一个邻域内有意义，若存在向量 $\in \mathbf R^n$ 满足
$\mathrm{lim}_{p\rightarrow0} \frac{f(\mathbf x + \mathbf p) − f(\mathbf x) − \mathbf g^T \mathbf p} {||\mathbf p||} = 0$
其中 $∣ ∣ \cdot ∣ ∣$ 是任意的向量范数，就称 $f$ 在点 $\mathbf x$ 处可微（或 Frechet 可微）．此时 $g$ 称为 $f$ 在点 $\mathbf x$ 处的梯度，记作 $\nabla f(\mathbf x)$ ．如果对区域 D 上的每一个点 $\mathbf x$ 都有 $\nabla f(\mathbf x)$ 存在，则称 $f$ 在 D 上可微．

若 $f$ 在点 $\mathbf x$ 处的梯度存在，令 $\mathbf p = \epsilon \mathbf e_i$ ， $\mathbf e_i$ 是第 $i$ 个分量为 1 的单位向量，可知 $\nabla f(\mathbf x)$ 的第 $i$ 个分量为 $\frac{\partial f(\mathbf x)}{\partial x_i}$ ．因此
$\nabla f(\mathbf x)=[\frac{\partial f(\mathbf x)}{\partial x_1},\frac{\partial f(\mathbf x)}{\partial x_2},\cdots,\frac{\partial f(\mathbf x)}{\partial x_i}]^T$
在实际应用中，矩阵 Frechet 可微的定义和使用往往比较繁琐，为此我们需要介绍另一种定义——Gateaux 可微.

(Gateaux 可微)给定函数 $:\mathbf R^n \rightarrow \mathbf R$ ，且 $f$ 在点 $\mathbf x$ 的一个邻域内有意义，若存在向量 $\in \mathbf R^n,t \in \Bbb R$ 满足
$\mathrm{lim}_{t\rightarrow0}=\frac{f(\mathbf x+t\mathbf v)-f(\mathbf x)-t\langle\mathbf v,\mathbf g\rangle}{t}=0$
则称 $f$ 关于 $\mathbf x$ 是 Gateaux 可微的．满足上式的 $\mathbf g$ 称为 $f$ 在 $\mathbf x$ 处在 Gateaux 可微意义下的梯度。

把向量变元 $\mathbf x$ 推广至矩阵变元 $\mathbf X$ 上述式子依旧成立

从二者定义容易看出，若 f 是 Frechet 可微的，则 f 也是 Gateaux 可微的，且二者意义下的梯度相等．但这一命题反过来不一定成立。一般认为我们研究的函数是一个"好函数"，在此条件下二者的梯度相等。

例：

$f(\mathbf X) = Tr(\mathbf A\mathbf X^T\mathbf B)$
$\begin{aligned} &\mathrm{lim_{t\rightarrow 0}}\frac{\mathrm{tr}(\mathbf A(\mathbf X + t\mathbf V) ^T\mathbf B) − \mathrm{tr}(\mathbf A\mathbf X^T\mathbf B)}{t}\\ &=\mathrm{tr}(\mathbf A\mathbf V^T\mathbf B)\\ &=\langle BA,V\rangle \end{aligned}$
因此， $\nabla f(\mathbf X) = \mathbf B\mathbf A$
$f(\mathbf x)=\mathbf w^T\mathbf x$
$\begin{aligned} &\mathrm{lim_{t\rightarrow 0}}\frac{\mathbf w^T(\mathbf x + t\mathbf v) − \mathbf w^T\mathbf x}{t}\\ &=\mathbf w^T \mathbf v \\ &=\langle \mathbf w,\mathbf v\rangle \end{aligned}$
因此， $\nabla f(\mathbf x) = \mathbf w$
$f(\mathbf X) = \ln(\det(\mathbf X))$ ,其中 $\mathbf X$ 是正定矩阵

$\begin{aligned} f(\mathbf X + t\mathbf V) − f(\mathbf X)&=\ln(\det(\mathbf X + t\mathbf V)) − \ln(\det(\mathbf X))\\ &=\ln(\det(\mathbf X^{1/2}(\mathbf I + t\mathbf X^{−1/2}\mathbf V\mathbf X^{−1/2})\mathbf X^{1/2})) − \ln(\det(X))\\ &=\ln(\det(\mathbf I + t\mathbf X^{−1/2}\mathbf V\mathbf X^{−1/2}))\ \ \ \ \ \ \ \\&为使\mathbf X + t\mathbf V为正定矩阵，则\mathbf V必为对称矩阵，则 \mathbf X^{−1/2}\mathbf V\mathbf X^{−1/2} 是对称矩阵，所以它可以正交对角化，不妨设它的特征值为 \lambda _1,\lambda _2,\cdots ,\lambda _n．，则\\ &=\ln \prod_{i=1}^n(1 + t\lambda _i)\\ &=\sum_{i=1}^n\ln (1+t\lambda _i)\\ &=\sum_{i=1}^{n}t\lambda _i+O(t^2)\\ &=t*\mathrm{tr}(\mathbf X^{−1/2}\mathbf V\mathbf X^{−1/2}) + O(t^2)\\ &=t\langle(\mathbf X^{−1})^T,V\rangle+ O(t^2) \end{aligned}$

因此， $\nabla f(\mathbf X) = \mathbf (X^{−1})^T$

设 $f:\Bbb R^n\rightarrow\Bbb R$ 是连续可微的， $\mathbf p \in \Bbb R^n$ 为向量，那么
$f(\mathbf x + \mathbf p) = f(\mathbf x) + \nabla f(\mathbf x + t\mathbf p)^T\mathbf p,$
进一步地，如果 $f$ 是二阶连续可微的，则
$f(\mathbf x + \mathbf p) = f(\mathbf x) + \nabla f(\mathbf x) ^T\mathbf p +\frac{1}{2}\mathbf p^T\nabla ^2 f(\mathbf x + t\mathbf p)\mathbf p,$
其中 $0 < t < 1$

四.海瑟矩阵

如果函数 $\Bbb R^n → \Bbb R$ 在点 $\mathbf x$ 处的二阶偏导数 $\frac { \partial^2 f(\mathbf x)} {\partial x_i \partial x_j} i, j = 1, 2,··· ,n$ 都存在，则
$\nabla^2f(\mathbf x)= \begin{bmatrix} \frac{\partial^2 f(\mathbf x)} {\partial x_1^2} &\frac{\partial^2 f(\mathbf x)} {\partial x_1\partial x_2}&\cdots &\frac{\partial^2 f(\mathbf x)} {\partial x_1\partial x_n}\\ \frac{\partial^2 f(\mathbf x)} {\partial x_2\partial x_1}& \frac{\partial^2 f(\mathbf x)} {\partial x_2\partial x_2}& \cdots& \frac{\partial^2 f(\mathbf x)} {\partial x_2\partial x_n}\\ \vdots &\vdots &\ddots&\vdots\\ \frac{\partial^2 f(\mathbf x)} {\partial x_n\partial x_1}& \frac{\partial^2 f(\mathbf x)} {\partial x_n\partial x_2}& \cdots& \frac{\partial^2 f(\mathbf x)} {\partial^2 x_n} \end{bmatrix}$
称为 $f$ 在点 $\mathbf x$ 处的海瑟矩阵,可以看出海瑟矩阵是一个对称矩阵