【数理基础】矩阵运算公式汇总(基本性质、迹、行列式、矩阵求导、特征向量)

目录

0 引言

1 矩阵的基本性质

2 矩阵的迹和行列式

3 矩阵求导

4 特征向量方程


0 引言

矩阵是机器学习应用的一种重要的数据结构,广泛应用于数据表示、特征提取、模型训练和数据处理等各个方面,许多机器学习算法都涉及到对数据进行矩阵运算操作。理解和熟练运用线性代数和矩阵操作对于机器学习算法的理解至关重要。

因此在此博客中,汇总矩阵的基本性质以及一些常见的矩阵运算公式,以便在记忆出现模糊时查阅。

下面的公式参考Christopher M. Bishop的Pattern Recognition and Machine Learning一书整理。

1 矩阵的基本性质

以下所有公式,以大写字母为矩阵,对应小写字母为矩阵中的元素,元素下标按照先行后列书写。

公式1:

(AB)^T=B^TA^T

公式2:

AA^{-1}=A^{-1}A=I

公式3:

(AB)^{-1}=B^{-1}A^{-1}

公式4:

(A^T)^{-1}=(A^{-1})^T

公式5:

(P^{-1}+B^TR^{-1}B)^{-1}B^TR^{-1}=PB^T(BPB^T+R)^{-1}

上述公式可以通过两侧同乘(BPB^T+R)证明正确性。P\in \mathbb{R}^{N\times N},R\in \mathbb{R}^{M\times M},M\ll N时,将等式左侧形式转换为右侧形式计算会大大降低计算代价。例如如下情况:

(I+AB^{-1})A=A(I+BA)^{-1}

公式6(Woodbury恒等式):

(A+BD^{-1}C)^{-1}=A^{-1}-A^{-1}B(D+CA^{-1}B)^{-1}CA^{-1}

上述公式可以通过两侧同乘(A+BD^{-1}C)证明正确性。当A是个很大的对角矩阵,B的行数远大于列数,C反之,则将等式左侧形式转换为右侧形式计算会大大降低计算代价。

2 矩阵的迹和行列式

矩阵的迹Tr(A)和行列式|A|只适用于A是方阵的情形

公式7:

Tr(AB)=Tr(BA)

Tr(ABC)=Tr(CAB)=Tr(BCA)

上述循环性质可以扩展到任意数量矩阵的乘积。

公式8:

|AB|=|A||B|

公式9:

|A^{-1}|=1/|A|

公式10:

|I_N+AB^T|=|I_M+A^TB|

其中A,B\in \mathbb{R}^{N\times M},当M=1时,有如下特殊情况:

|I_N+ab^T|=1+a^Tb

3 矩阵求导

本节公式以大写字母为矩阵,小写字母为向量。有人可能会疑惑公式结果(例如公式11)是否少了一个转置,实际上这是分子布局和分母布局的差别,没有本质区别

公式11:

\frac{\partial }{\partial x}(x^Ta)=\frac{\partial }{\partial x}(a^Tx)=a

公式12:

\frac{\partial }{\partial x}(AB)=\frac{\partial A}{\partial x}B+A\frac{\partial B}{\partial x}

公式13:

\frac{\partial }{\partial x}(A^{-1})=-A^{-1}\frac{\partial A}{\partial x}A^{-1}

使用公式12对方程A^{-1}A=I求微分,然后右乘A^{-1}即可证明。

公式14:

\frac{\partial }{\partial x}\ln |A|=Tr(A^{-1}\frac{\partial A}{\partial x})

公式15:

\frac{\partial }{\partial a_{ij}}Tr(AB)=b_{ji}

\frac{\partial }{\partial A}Tr(AB)=B^T

\frac{\partial }{\partial A}Tr(A^TB)=B

\frac{\partial }{\partial A}Tr(A)=I

\frac{\partial }{\partial A}Tr(ABA^T)=A(B+B^T)

\frac{\partial }{\partial A}\ln |A|=(A^{-1})^T

4 特征向量方程

对于矩阵A\in \mathbb{R}^{M\times M},特征向量方程定义为Au_i=\lambda _iu_i,i=1,2,...,M,称\lambda _i为特征值,u_i\lambda _i对应的特征向量。

公式16:

A=\sum_{i=1}^{M}\lambda _iu_iu_i^T

A^{-1}=\sum_{i=1}^{M}u_iu_i^T/\lambda _i

公式17:

|A|=\prod_{i=1}^{M}\lambda _i

公式18:

Tr(A)=\sum_{i=1}^{M}\lambda_i

若对于向量w的所有非零值都有wA^Tw> 0,则称A为正定的,所有特征值均大于0。

若对于向量w的所有值都有wA^Tw\geq 0,则称A为半正定的,所有特征值均大于等于0。

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值