矩阵论学习

个人写作笔记,如有问题,请不吝赐教!

矩阵之间的关系

相抵: A , B ∈ C m × n , A ⋍ B    ⟺    ∃ U ∈ C m × m , V ∈ C n × n , s . t . B = U A V \bm{A},\bm{B}\in \mathbb{C}^{m\times n},\bm{A}\backsimeq\bm{B} \iff \exist \bm{U}\in \mathbb{C}^{m\times m}, \bm{V}\in \mathbb{C}^{n\times n},s.t.\quad \bm{ B=UAV} A,BCm×n,ABUCm×m,VCn×n,s.t.B=UAV
相似、合同变换都是一种相抵关系。
正规矩阵: A ∈ C n × n , A A H = A H A \bm{A}\in \mathbb{C}^{n\times n},\bm{AA}^{\rm H}=\bm{A}^{\rm H}\bm{A} ACn×n,AAH=AHA,实正规矩阵即为实数域
单纯矩阵:每个特征值的代数重复度(特征值的重数)和几何重复度(特征值对应的解向量的个数)相等的矩阵,可以相似对角化,又称为简单矩阵。

若当标准形

矩阵多项式

不变因子:史密斯标准形对角线非零元素(对 λ \lambda λ矩阵进行初等变换得到的标准形,可看作是特征值)
k k k阶行列式因子: λ \lambda λ矩阵中全部 k k k阶子式的最大公因式,例如,一阶行列式因子就是矩阵中全部元素的最大公因子,二阶行列式因子就是全面二阶子式中的最大公因子,以此类推)
初等因子:组成不变因子的全部含 λ \lambda λ项,即形如 ( λ − λ j ) e i j , e i j ≠ 0 (\lambda-\lambda_j)^{e_{ij}},e_{ij}\ne 0 (λλj)eij,eij=0的式子

若当标准化

若当标准形:
[ λ 1 1 0 ⋯ 0 0 λ 2 1 ⋯ 0 ⋮ ⋮ ⋱ ⋱ ⋮ 0 0 ⋯ λ n − 1 1 0 0 0 ⋯ λ n ] \begin{bmatrix} \lambda_1&1&0&\cdots&0\\ 0&\lambda_2&1&\cdots&0\\ \vdots&\vdots&\ddots&\ddots&\vdots\\ 0&0&\cdots&\lambda_{n-1}&1\\ 0&0&0&\cdots&\lambda_n\\ \end{bmatrix} λ10001λ200010λn1001λn
求取若当标准形:
1.求出全部的初等因子,保证因子次数之和等于矩阵的秩
2.根据每个初等因子,写出对应的若当块,例如初等因子 ( λ − λ i ) m i (\lambda-\lambda_i)^{m_i} (λλi)mi对应的若当块是:
J i = [ λ i 1 λ i ⋱ ⋱ 1 λ i ] \bm{J_i}=\begin{bmatrix} \lambda_i&1&& \\ &\lambda_i&\ddots&\\ &&\ddots&1\\ &&&\lambda_i\\ \end{bmatrix} Ji= λi1λi1λi
3.根据这些若当块,组成若当标准形:
J = [ J 1 J 2 ⋱ J r ] \bm{J}=\begin{bmatrix} \bm{J_1}&&&\\ &\bm{J_2}&&\\ &&\ddots&\\ &&&\bm{J_r}\\ \end{bmatrix} J= J1J2Jr

凯莱-哈密顿定理

方阵满足其特征多项式,即 f ( A ) = 0 f(\bm{A})=0 f(A)=0
可用于计算方阵的n次幂

矩阵的范数

∀ A ∈ C m × n \displaystyle\forall\bm A\in\mathbb{C}^{m\times n} ACm×n,定义以下的范数:

矩阵原生范数

总和范数: ∣ ∣ A ∣ ∣ M = ∑ j = 1 n ∑ i = 1 m ∣ a i j ∣ \displaystyle||\bm{A}||_M=\sum^n_{j=1}\sum^m_{i=1} |a_{ij}| ∣∣AM=j=1ni=1maij
F范数: ∣ ∣ A ∣ ∣ F = ∑ j = 1 n ∑ i = 1 m ∣ a i j ∣ 2 \displaystyle||\bm{A}||_F=\sum^n_{j=1}\sum^m_{i=1} |a_{ij}|^2 ∣∣AF=j=1ni=1maij2
G范数: ∣ ∣ A ∣ ∣ G = n ⋅ max ⁡ i , j ∑ i = 1 n ∣ a i j ∣ \displaystyle||\bm{A}||_G=n\cdot \max_{i,j}\sum^n_{i=1} |a_{ij}| ∣∣AG=ni,jmaxi=1naij

向量范数导出的矩阵范数

矩阵的最大奇异值称为矩阵的谱半径,用 ρ ( A ) = max ⁡ { s i } i = 1 n \displaystyle\rho({\bm{A}})=\max\{s_i\}_{i=1}^{n} ρ(A)=max{si}i=1n 表示。
行和范数: ∣ ∣ A ∣ ∣ ∞ = ∑ j = 1 n ∣ a i j ∣ \displaystyle||\bm{A}||_{\infty}=\sum^n_{j=1} |a_{ij}| ∣∣A=j=1naij
列和范数: ∣ ∣ A ∣ ∣ 1 = ∑ i = 1 m ∣ a i j ∣ \displaystyle||\bm{A}||_1=\sum^m_{i=1} |a_{ij}| ∣∣A1=i=1maij
谱范数: ∣ ∣ A ∣ ∣ 2 = max ⁡ { s i } i = 1 n \displaystyle||\bm{A}||_2=\max\{s_i\}_{i=1}^{n} ∣∣A2=max{si}i=1n

矩阵分析应用

矩阵函数

1.对于单纯矩阵
找到一个变换矩阵 Q \bm Q Q,使得矩阵对角化为 B \bm B B,即:
B = D i a g [ f ( λ 1 ) , f ( λ 2 ) , ⋯   , f ( λ n ) ] = Q − 1 A Q \bm{B}=Diag[f(\lambda_1),f(\lambda_2),\cdots,f(\lambda_n)]=\bm{Q}^{-1}\bm{AQ} B=Diag[f(λ1),f(λ2),,f(λn)]=Q1AQ矩阵函数定义为:
Q − 1 f ( A ) Q = D i a g [ f ( λ 1 ) , f ( λ 2 ) , ⋯   , f ( λ n ) ]    ⟹    f ( A ) = Q − 1 D i a g [ f ( λ 1 ) , f ( λ 2 ) , ⋯   , f ( λ n ) ] Q \begin{align*} &\bm{Q}^{-1}f(\bm{A})\bm{Q}=Diag[f(\lambda_1),f(\lambda_2),\cdots,f(\lambda_n)]\\ &\implies f(\bm{A})=\bm{Q}^{-1}Diag[f(\lambda_1),f(\lambda_2),\cdots,f(\lambda_n)]\bm{Q} \end{align*} Q1f(A)Q=Diag[f(λ1),f(λ2),,f(λn)]f(A)=Q1Diag[f(λ1),f(λ2),,f(λn)]Q

2.对于亏损矩阵(不能保证代数和几何重复度相等,但是可以保证所有特征向量线性无关的矩阵)
找到一个变换矩阵 T \bm T T,使得矩阵若当标准化为 J \bm J J,即:
J = D i a g [ f ( J 1 ( λ 1 ) ) , f ( J 2 ( λ 2 ) ) , ⋯   , f ( J r ( λ r ) ) ] = T − 1 A T \bm{J}=Diag[f(\bm{J_1}(\lambda_1)),f(\bm{J_2}(\lambda_2)),\cdots,f(\bm{J_r}(\lambda_r))]=\bm{T}^{-1}\bm{AT} J=Diag[f(J1(λ1)),f(J2(λ2)),,f(Jr(λr))]=T1AT矩阵函数定义为:
T − 1 f ( A ) T = D i a g [ f ( J 1 ( λ 1 ) ) , f ( J 2 ( λ 2 ) ) , ⋯   , f ( J r ( λ r ) ) ]    ⟹    f ( A ) = T − 1 D i a g [ f ( J 1 ( λ 1 ) ) , f ( J 2 ( λ 2 ) ) , ⋯   , f ( J r ( λ r ) ) ] T \begin{align*} &\bm{T}^{-1}f(\bm{A})\bm{T}=Diag[f(\bm{J_1}(\lambda_1)),f(\bm{J_2}(\lambda_2)),\cdots,f(\bm{J_r}(\lambda_r))]\\ &\implies f(\bm{A})=\bm{T}^{-1}Diag[f(\bm{J_1}(\lambda_1)),f(\bm{J_2}(\lambda_2)),\cdots,f(\bm{J_r}(\lambda_r))]\bm{T} \end{align*} T1f(A)T=Diag[f(J1(λ1)),f(J2(λ2)),,f(Jr(λr))]f(A)=T1Diag[f(J1(λ1)),f(J2(λ2)),,f(Jr(λr))]T

矩阵的微积分

定义

矩阵函数对纯量求导

设矩阵 A ∈ C m × n \bm A\in\mathbb{C}^{m\times n} ACm×n,矩阵函数 F ( A ) : C m × n ⟼ C p × q \bm F(\bm A):\mathbb{C}^{m\times n}\longmapsto \mathbb{C}^{p\times q} F(A):Cm×nCp×q,其全微分满足以下式子:
d F ( A ) d a i j = [ d f 11 d a i j d f 12 d a i j ⋯ d f 1 q d a i j d f 21 d a i j d f 22 d a i j ⋯ d f 2 q d a i j ⋮ ⋮ ⋮ d f p 1 d a i j d f p 2 d a i j ⋯ d f p q d a i j ] \frac{{\rm d}\bm F(\bm A)}{{\rm d}a_{ij}}=\left[ \begin{matrix} \frac{{\rm d}f_{11}}{{\rm d}a_{ij}}&\frac{{\rm d}f_{12}}{{\rm d}a_{ij}}&\cdots&\frac{{\rm d}f_{1q}}{{\rm d}a_{ij}}\\\\ \frac{{\rm d}f_{21}}{{\rm d}a_{ij}}&\frac{{\rm d}f_{22}}{{\rm d}a_{ij}}&\cdots&\frac{{\rm d}f_{2q}}{{\rm d}a_{ij}}\\\\ \vdots&\vdots&&\vdots\\\\ \frac{{\rm d}f_{p1}}{{\rm d}a_{ij}}&\frac{{\rm d}f_{p2}}{{\rm d}a_{ij}}&\cdots&\frac{{\rm d}f_{pq}}{{\rm d}a_{ij}} \end{matrix} \right] daijdF(A)= daijdf11daijdf21daijdfp1daijdf12daijdf22daijdfp2daijdf1qdaijdf2qdaijdfpq

纯量对向量的导数

设列向量 X ∈ C n × 1 \bm X\in\mathbb{C}^{n\times1} XCn×1,对于一个向量值函数 f ( X ) : C n × 1 ⟼ C f(\bm X):\mathbb{C}^{n\times1}\longmapsto \mathbb{C} f(X):Cn×1C,其全微分满足以下式子:
d f ( X ) = ∑ i = 1 n ∂ f ∂ x i d x i {\rm d}f(\bm X)=\sum_{i=1}^n\frac{\partial f}{\partial x_i}{\rm d}x_i df(X)=i=1nxifdxi将式子改写成矩阵的形式,则有:
d f ( X ) = [ ∂ f ∂ x 1 ∂ f ∂ x 2 ⋯ ∂ f ∂ x q ] [ d x 1 d x 2 ⋮ d x q ] {\rm d}f(\bm X)=\left[\begin{matrix} \frac{\partial f}{\partial x_1}&\frac{\partial f}{\partial x_2}&\cdots&\frac{\partial f}{\partial x_q} \end{matrix}\right] \left[\begin{matrix} {\rm d}x_1\\\\ {\rm d}x_2\\\\ \vdots\\\\ {\rm d}x_q \end{matrix}\right] df(X)=[x1fx2fxqf] dx1dx2dxq 矩阵导数有多种表示形式,常见的如分子求导式或者分母求导式,本文选取的是分母求导式,其人为定义如下:
d f ( X ) d X = [ ∂ f ∂ x 1 ∂ f ∂ x 2 ⋯ ∂ f ∂ x q ] d X = [ d x 1 d x 2 ⋮ d x q ] \frac{{\rm d}f(\bm X)}{\rm d \bm X}=\left[\begin{matrix} \frac{\partial f}{\partial x_1}&\frac{\partial f}{\partial x_2}&\cdots&\frac{\partial f}{\partial x_q} \end{matrix}\right]\quad\rm d\bm X=\left[\begin{matrix} {\rm d}x_1\\\\ {\rm d}x_2\\\\ \vdots\\\\ {\rm d}x_q \end{matrix}\right] dXdf(X)=[x1fx2fxqf]dX= dx1dx2dxq A ∈ C m × n \bm A\in\mathbb{C}^{m\times n} ACm×n X , Y ∈ C n × 1 \bm X, \bm Y\in\mathbb{C}^{n\times1} X,YCn×1,则必有:
{ d Y d X H = ( d Y H d X ) H d A X d X = A \left\{\begin{align*} \frac{{\rm d}\bm Y}{{\rm d}\bm X^{\rm H}}&=\Big(\frac{{\rm d}\bm Y^{\rm H}}{{\rm d}\bm X}\Big)^{\rm H}\\ \frac{{\rm d}\bm A\bm X}{{\rm d}\bm X}&=\bm A \end{align*}\right. dXHdYdXdAX=(dXdYH)H=A纯量对矩阵的求导满足简单的运算法则:
d [ f ( X ) ± g ( X ) ] d X = d f ( X ) d X ± d g ( X ) d X \frac{{\rm d}[f(\bm X)\pm g(\bm X)]}{{\rm d}\bm X}=\frac{{\rm d}f(\bm X)}{{\rm d}\bm X}\pm\frac{{\rm d}g(\bm X)}{{\rm d}\bm X} dXd[f(X)±g(X)]=dXdf(X)±dXdg(X)
d f ( X ) g ( X ) d X = d f ( X ) d X g ( X ) + f ( X ) d g ( X ) d X \frac{{\rm d}f(\bm X)g(\bm X)}{{\rm d}\bm X}=\frac{{\rm d}f(\bm X)}{{\rm d}\bm X}g(\bm X)+f(\bm X)\frac{{\rm d}g(\bm X)}{{\rm d}\bm X} dXdf(X)g(X)=dXdf(X)g(X)+f(X)dXdg(X)

复杂导数

下面包含矩阵之间、向量之间的导数,直接计算十分繁杂,通过以下几步公式可以简化运算。

预备知识:矩阵直积

引入克罗内克记号(矩阵直积): ⊗ \otimes
若设 A ∈ R m × p , B ∈ R n × p , X ∈ R q × 1 \bm{A}\in R^{m\times p},\bm{B}\in R^{n\times p},\bm X\in R^{q\times 1} ARm×p,BRn×p,XRq×1,记:
A ⊗ B ≜ [ a 11 B a 12 B ⋯ a 1 p B a 21 B a 22 B ⋯ a 2 p B ⋮ ⋮ ⋮ a m 1 B a m 2 B ⋯ a m p B ] m n × p q \bm{A}\otimes \bm{B}\triangleq\begin{bmatrix} a_{11}\bm{B}&a_{12}\bm{B}&\cdots&a_{1p}\bm{B}\\ a_{21}\bm{B}&a_{22}\bm{B}&\cdots&a_{2p}\bm{B}\\ \vdots&\vdots&&\vdots\\ a_{m1}\bm{B}&a_{m2}\bm{B}&\cdots&a_{mp}\bm{B}\\ \end{bmatrix}_{mn\times pq} AB a11Ba21Bam1Ba12Ba22Bam2Ba1pBa2pBampB mn×pq

矩阵对矩阵的导数

∃ F ∈ C p × q , A ∈ C m × n \exist \bm{F}\in C^{p\times q},\bm{A}\in C^{m\times n} FCp×q,ACm×n,有:
d F d A = [ ∂ F ∂ a 11 ∂ F ∂ a 21 ⋯ ∂ F ∂ a m 1 ∂ F ∂ a 12 ∂ F ∂ a 22 ⋯ ∂ F ∂ a m 2 ⋮ ⋮ ⋮ ∂ F ∂ a 1 n ∂ F ∂ a 2 n ⋯ ∂ F ∂ a m n ] ≜ d d A ⊗ F \frac{{\rm d}\bm{F}}{{\rm d}\bm{A}}=\begin{bmatrix} \frac{\partial \bm{F}}{\partial a_{11}}&\frac{\partial \bm{F}}{\partial a_{21}}&\cdots&\frac{\partial \bm{F}}{\partial a_{m1}}\\\\ \frac{\partial \bm{F}}{\partial a_{12}}&\frac{\partial \bm{F}}{\partial a_{22}}&\cdots&\frac{\partial \bm{F}}{\partial a_{m2}}\\\\ \vdots&\vdots&&\vdots\\\\ \frac{\partial \bm{F}}{\partial a_{1n}}&\frac{\partial \bm{F}}{\partial a_{2n}}&\cdots&\frac{\partial \bm{F}}{\partial a_{mn}} \end{bmatrix}\triangleq\frac{\rm d}{\rm d\bm A}\otimes\bm F dAdF= a11Fa12Fa1nFa21Fa22Fa2nFam1Fam2FamnF dAdF尤其注意,矩阵梯度形状与微分变量有转置关系:
d d A ≜ [ ∂ ∂ a 11 ∂ ∂ a 21 ⋯ ∂ ∂ a m 1 ∂ ∂ a 12 ∂ ∂ a 22 ⋯ ∂ ∂ a m 2 ⋮ ⋮ ⋮ ∂ ∂ a 1 n ∂ ∂ a 2 n ⋯ ∂ ∂ a m n ] \frac{{\rm d}}{{\rm d}\bm{A}}\triangleq \begin{bmatrix} \frac{\partial }{\partial a_{11}}&\frac{\partial }{\partial a_{21}}&\cdots&\frac{\partial }{\partial a_{m1}}\\\\ \frac{\partial }{\partial a_{12}}&\frac{\partial }{\partial a_{22}}&\cdots&\frac{\partial }{\partial a_{m2}}\\\\ \vdots&\vdots&&\vdots\\\\ \frac{\partial }{\partial a_{1n}}&\frac{\partial }{\partial a_{2n}}&\cdots&\frac{\partial }{\partial a_{mn}} \end{bmatrix} dAd a11a12a1na21a22a2nam1am2amn 可见导数的形状为 d F d A ∈ C n p × m q \frac{{\rm d}\bm{F}}{{\rm d}\bm{A}}\in\mathbb{C}^{np\times mq} dAdFCnp×mq,相当于原函数形状对微分变量转置形状的直积。简记为:
d F d A ≜ d d A ⊗ F ≜ ∇ A ⊗ F \begin{align*} \frac{{\rm d}\bm{F}}{{\rm d}\bm{A}}\triangleq\frac{{\rm d}}{{\rm d}\bm A}\otimes\bm F\triangleq\nabla_{\bm A}\otimes\bm F \end{align*} dAdFdAdFAF当原函数退化为纯量时,矩阵直积退化为向量梯度场:
d f d A ≜ d d A f ≜ ∇ A f \begin{align*} \frac{{\rm d}f}{{\rm d}\bm{A}}\triangleq\frac{{\rm d}}{{\rm d}\bm A}f\triangleq\nabla_{\bm A}f \end{align*} dAdfdAdfAf这是一个重要结论,可以用于验证导数求解的正确性。

求导运算法则

矩阵对列向量求导

特别地,当微分变量是列向量时,设 A ∈ C m × n \bm{A}\in\mathbb{C}^{m\times n} ACm×n B ∈ C n × p \bm{B}\in\mathbb{C}^{n\times p} BCn×p X ∈ C n × 1 \bm{X}\in\mathbb{C}^{n\times1} XCn×1 f ( X ) f(\bm{X}) f(X) 是一个纯量函数,可以得出以下的求导结论,有:
{ d ( A ± B ) d X = d A d X ± d B d X d f X B d X = d f X d X ⊗ B + f X d B d X d A B d X = d A d X ( I q ⊗ B ) + A d B d X \begin{align*} \left\{ \begin{aligned} &\frac{{\rm d}\big(\bm{A}\pm\bm{B}\big)}{{\rm d}\bm{X}}=\frac{{\rm d}\bm{A}}{{\rm d}\bm{X}}\pm\frac{{\rm d}\bm{B}}{{\rm d}\bm{X}}\\\\ &\frac{{\rm d}f_{\bm X}\bm{B}}{{\rm d}\bm{X}}=\frac{{\rm d}f_{\bm X}}{{\rm d}\bm{X}}\otimes\bm{B}+f_{\bm X}\frac{{\rm d}\bm{B}}{{\rm d}\bm{X}}\\\\ &\frac{{\rm d}\bm{A}\bm{B}}{{\rm d}\bm{X}}=\frac{{\rm d}\bm{A}}{{\rm d}\bm{X}}\big(\bm I_q\otimes\bm{B}\big)+\bm{A}\frac{{\rm d}\bm{B}}{{\rm d}\bm{X}} \end{aligned} \right. \end{align*} dXd(A±B)=dXdA±dXdBdXdfXB=dXdfXB+fXdXdBdXdAB=dXdA(IqB)+AdXdB

向量对向量求导

特别地,当函数也退化为向量时,直积部分可以省略。设 X ∈ C m × 1 \bm{X}\in\mathbb{C}^{m\times 1} XCm×1 Y , Z ∈ C n × 1 \bm{Y,Z}\in\mathbb{C}^{n\times 1} Y,ZCn×1 f ( X ) f(\bm{X}) f(X) 是一个纯量函数,有以下更为简洁的公式:
{ d ( Y ± Z ) d X = d Y d X ± d Z d X d ( f X Z ) d X = d f X d X ⊗ Z + f X d Z d X = Z d f X d X H + f X d Z d X d ( Y H Z ) d X = Z H d Y d X + Y H d Z d X \begin{align*} \left\{ \begin{aligned} &\frac{{\rm d}(\bm{Y}\pm\bm{Z})}{{\rm d}\bm{X}}=\frac{{\rm d}\bm{Y}}{{\rm d}\bm{X}}\pm\frac{{\rm d}\bm{Z}}{{\rm d}\bm{X}}\\\\ &\frac{{\rm d}(f_{\bm X}\bm{Z})}{{\rm d}\bm{X}}=\frac{{\rm d}f_{\bm X}}{{\rm d}\bm{X}}\otimes\bm{Z}+f_{\bm X}\frac{{\rm d}\bm{Z}}{{\rm d}\bm{X}}=\bm{Z}\frac{{\rm d}f_{\bm X}}{{\rm d}\bm{X}^{\rm H}}+f_{\bm X}\frac{{\rm d}\bm{Z}}{{\rm d}\bm{X}}\\\\ &\frac{{\rm d}(\bm{Y}^{\rm H}\bm{Z})}{{\rm d}\bm{X}}=\bm{Z}^{\rm H}\frac{{\rm d}\bm{Y}}{{\rm d}\bm{X}}+\bm{Y}^{\rm H}\frac{{\rm d}\bm{Z}}{{\rm d}\bm{X}} \end{aligned} \right. \end{align*} dXd(Y±Z)=dXdY±dXdZdXd(fXZ)=dXdfXZ+fXdXdZ=ZdXHdfX+fXdXdZdXd(YHZ)=ZHdXdY+YHdXdZ

矩阵迹的导数

未完待续…

矩阵范数的导数

未完待续…

矩阵的全微分

性质:线性性,转置和追迹(主对角线上元素之和)运算与微分可换顺序: d ( X H ) = ( d X ) H {\rm d}(\bm{X}^{\rm H})=({\rm d}\bm{X})^{\rm H} d(XH)=(dX)H, d ( t r X ) = t r ( d X ) {\rm d}(tr\bm{X})=tr({\rm d}\bm{X}) d(trX)=tr(dX)
注意,矩阵求导不能认为是微商。
一个重要公式:
若设 X \bm{X} X是n维列向量, Y \bm{Y} Y是m维列向量, A \bm{A} A n × m n\times m n×m维矩阵,则有:
X H A Y = ∑ i = 1 n ∑ j = 1 m a i j x i y j \bm{X}^{\rm H}\bm{AY}=\sum^n_{i=1}\sum^m_{j=1}a_{ij}x_iy_j XHAY=i=1nj=1maijxiyj

运算式证明

矩阵求导乘积法则推导过程:
设矩阵 A ∈ C m × n , B ∈ C n × p {\bm A}\in\mathbb{C}^{m\times n},\bm B\in\mathbb{C}^{n\times p} ACm×n,BCn×p,列向量 X ∈ C n × 1 \bm X\in\mathbb{C}^{n\times1} XCn×1,证明以下公式成立:
d A B d X = d A d X ( I q ⊗ B ) + A d B d X \frac{{\rm d}\bm{A}\bm{B}}{{\rm d}\bm{X}}=\frac{{\rm d}\bm{A}}{{\rm d}\bm{X}}\big(\bm I_q\otimes\bm{B}\big)+\bm{A}\frac{{\rm d}\bm{B}}{{\rm d}\bm{X}} dXdAB=dXdA(IqB)+AdXdB取定矩阵 A \bm A A的行向量和矩阵 B \bm B B的列向量:
A = [ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋮ a m 1 a m 2 ⋯ a m n ] = [ α 1 H α 2 H ⋮ α m H ] B = [ b 11 b 12 ⋯ b 1 p b 21 b 22 ⋯ b 2 p ⋮ ⋮ ⋮ b n 1 b n 2 ⋯ b n p ] = [ β 1 β 2 ⋯ β p ] A=\left[ \begin{matrix} a_{11}&a_{12}&\cdots&a_{1n}\\ a_{21}&a_{22}&\cdots&a_{2n}\\ \vdots&\vdots&&\vdots\\ a_{m1}&a_{m2}&\cdots&a_{mn}\\ \end{matrix} \right]=\left[ \begin{matrix} \alpha_1^{\rm H}\\ \alpha_2^{\rm H}\\ \vdots\\ \alpha_m^{\rm H}\\ \end{matrix} \right] \quad \begin{align*} B&=\left[ \begin{matrix} b_{11}&b_{12}&\cdots&b_{1p}\\ b_{21}&b_{22}&\cdots&b_{2p}\\ \vdots&\vdots&&\vdots\\ b_{n1}&b_{n2}&\cdots&b_{np}\\ \end{matrix} \right]\\ &=\left[ \begin{matrix} \beta_1\quad \beta_2\quad \cdots\quad \beta_p \end{matrix} \right] \end{align*} A= a11a21am1a12a22am2a1na2namn = α1Hα2HαmH B= b11b21bn1b12b22bn2b1pb2pbnp =[β1β2βp]则有:
A B = [ α 1 H β 1 α 1 H β 2 ⋯ α 1 H β p α 2 H β 1 α 2 H β 2 ⋯ α 2 H β p ⋮ ⋮ ⋮ α m H β 1 α m H β 2 ⋯ α m H β p ]    ⟹    d A B d X = [ d A B d x 1 d A B d x 2 ⋯ d A B d x q ] \begin{align*} \bm{AB}&=\left[ \begin{matrix} \alpha_1^{\rm H}\beta_1&\alpha_1^{\rm H}\beta_2&\cdots&\alpha_1^{\rm H}\beta_p\\\\ \alpha_2^{\rm H}\beta_1&\alpha_2^{\rm H}\beta_2&\cdots&\alpha_2^{\rm H}\beta_p\\\\ \vdots&\vdots&&\vdots\\\\ \alpha_m^{\rm H}\beta_1&\alpha_m^{\rm H}\beta_2&\cdots&\alpha_m^{\rm H}\beta_p \end{matrix} \right]\\\\ \implies\frac{\rm d\bm{AB}}{{\rm d} \bm X}&= \begin{bmatrix} \frac{{\rm d}\bm{AB}}{{\rm d}x_1}&\frac{{\rm d}\bm{AB}}{{\rm d}x_2}&\cdots&\frac{{\rm d}\bm{AB}}{{\rm d}x_q} \end{bmatrix} \end{align*} ABdXdAB= α1Hβ1α2Hβ1αmHβ1α1Hβ2α2Hβ2αmHβ2α1Hβpα2HβpαmHβp =[dx1dABdx2dABdxqdAB]由于各项形式完全一致,考虑第一项 d A B d x 1 \displaystyle\frac{{\rm d}\bm{AB}}{{\rm d}x_1} dx1dAB即可,这是一项纯量对向量求导,直接化简可得:
d A B d x 1 = d A d x 1 B + A d B d x 1 \begin{align} \frac{{\rm d}\bm{AB}}{{\rm d}x_1}=\frac{{\rm d}\bm{A}}{{\rm d}x_1}\bm B+\bm A\frac{{\rm d}\bm{B}}{{\rm d}x_1} \end{align} dx1dAB=dx1dAB+Adx1dB可知最终结果必含两项,先考虑由 d A d x i B \displaystyle\frac{{\rm d}\bm{A}}{{\rm d}x_i}\bm B dxidAB 代表的一项,即有:
[ d A d x 1 B d A d x 2 B ⋯ d A d x q B ] = [ d A d x 1 d A d x 2 ⋯ d A d x q ] ⋅ ( I q ⊗ B ) = d A d X ( I q ⊗ B ) \begin{align*} &\begin{bmatrix} \frac{{\rm d}\bm{A}}{{\rm d}x_1}\bm B&\frac{{\rm d}\bm{A}}{{\rm d}x_2}\bm B&\cdots&\frac{{\rm d}\bm{A}}{{\rm d}x_q}\bm B \end{bmatrix}\\\\ &=\begin{bmatrix} \frac{{\rm d}\bm{A}}{{\rm d}x_1}&\frac{{\rm d}\bm{A}}{{\rm d}x_2}&\cdots&\frac{{\rm d}\bm{A}}{{\rm d}x_q} \end{bmatrix}\cdot\big(\bm I_q\otimes\bm B\big)\\\\ &=\frac{{\rm d}\bm{A}}{{\rm d}\bm X}\big(\bm I_q\otimes\bm B\big) \end{align*} [dx1dABdx2dABdxqdAB]=[dx1dAdx2dAdxqdA](IqB)=dXdA(IqB)即为待证结果第一项,再考虑由 A d B d x i \displaystyle\bm A\frac{{\rm d}\bm{B}}{{\rm d}x_i} AdxidB 代表的一项,有:
[ A d B d x 1 A d B d x 2 ⋯ A d B d x q ] = A [ d B d x 1 d B d x 2 ⋯ d B d x q ] = A d B d X \begin{align*} &\begin{bmatrix} \bm A\frac{{\rm d}\bm{B}}{{\rm d}x_1}&\bm A\frac{{\rm d}\bm{B}}{{\rm d}x_2}&\cdots&\bm A\frac{{\rm d}\bm{B}}{{\rm d}x_q} \end{bmatrix}\\\\ &=\bm A\begin{bmatrix} \frac{{\rm d}\bm{B}}{{\rm d}x_1}&\frac{{\rm d}\bm{B}}{{\rm d}x_2}&\cdots&\frac{{\rm d}\bm{B}}{{\rm d}x_q} \end{bmatrix}\\\\ &=\bm A\frac{{\rm d}\bm{B}}{{\rm d}\bm X} \end{align*} [Adx1dBAdx2dBAdxqdB]=A[dx1dBdx2dBdxqdB]=AdXdB这里,能够直接提取公因式的原因是,左乘的矩阵 A \displaystyle\bm A A 是按行与矩阵 d B d x q \displaystyle\frac{{\rm d}\bm{B}}{{\rm d}x_q} dxqdB 的列相乘,提取后的分块矩阵的形状是维持不变的,因此可以提取公因式;而在上一个式子中,由于矩阵 B \displaystyle\bm B B 是右乘的,因此提取出公因式后左边剩余的分块矩阵的形状倍增 q q q倍,因此不可直接提取公因式,需要引入矩阵直积。
综上,原公式得到了证明。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值