目录
0 引言
矩阵是机器学习应用的一种重要的数据结构,广泛应用于数据表示、特征提取、模型训练和数据处理等各个方面,许多机器学习算法都涉及到对数据进行矩阵运算操作。理解和熟练运用线性代数和矩阵操作对于机器学习算法的理解至关重要。
因此在此博客中,汇总矩阵的基本性质以及一些常见的矩阵运算公式,以便在记忆出现模糊时查阅。
下面的公式参考Christopher M. Bishop的Pattern Recognition and Machine Learning一书整理。
1 矩阵的基本性质
以下所有公式,以大写字母为矩阵,对应小写字母为矩阵中的元素,元素下标按照先行后列书写。
公式1:
公式2:
公式3:
公式4:
公式5:
上述公式可以通过两侧同乘证明正确性。当
时,将等式左侧形式转换为右侧形式计算会大大降低计算代价。例如如下情况:
公式6(Woodbury恒等式):
上述公式可以通过两侧同乘证明正确性。当A是个很大的对角矩阵,B的行数远大于列数,C反之,则将等式左侧形式转换为右侧形式计算会大大降低计算代价。
2 矩阵的迹和行列式
矩阵的迹和行列式
只适用于
是方阵的情形。
公式7:
上述循环性质可以扩展到任意数量矩阵的乘积。
公式8:
公式9:
公式10:
其中,当M=1时,有如下特殊情况:
3 矩阵求导
本节公式以大写字母为矩阵,小写字母为向量。有人可能会疑惑公式结果(例如公式11)是否少了一个转置,实际上这是分子布局和分母布局的差别,没有本质区别。
公式11:
公式12:
公式13:
使用公式12对方程求微分,然后右乘
即可证明。
公式14:
公式15:
4 特征向量方程
对于矩阵,特征向量方程定义为
,称
为特征值,
为
对应的特征向量。
公式16:
公式17:
公式18:
若对于向量w的所有非零值都有,则称A为正定的,所有特征值均大于0。
若对于向量w的所有值都有,则称A为半正定的,所有特征值均大于等于0。