人工智能数学课高等数学线性微积分数学教程笔记（5. 线性代数高级）

最新推荐文章于 2024-09-16 21:54:13 发布

yyywxk

最新推荐文章于 2024-09-16 21:54:13 发布

阅读量281

点赞数

分类专栏：数学文章标签：线性代数人工智能

本文链接：https://blog.csdn.net/yyywxk/article/details/127673857

版权

数学专栏收录该内容

19 篇文章 1 订阅

订阅专栏

前言

对人工智能数学课高等数学线性微积分数学教程的学习笔记。主要用于快速回忆已学的数学知识点，不适合基础学习。博客园中同步更新。

文章目录

笔记目录

前言
文章目录
5. 线性代数高级

5. 线性代数高级

- 二次型

纯二次项构成的函数，把含有 $n$ 个变量的二次齐次函数称为二次型：

$f\left ( x_1,x_2,\cdots,x_n \right )=a_{11}x_1^2+a_{22}x_2^2+\cdots+a_{nn}x_n^2+2a_{12}x_1x_2+2a_{13}x_1x_3+\cdots+2a_{n-1,n}x_{n-1}x_{n}$

它其实是向量和矩阵相乘的结果： $\boldsymbol{x}^T\boldsymbol{A}\boldsymbol{x}=\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}a_{ij}x_ix_j$ ， $\boldsymbol{A}$ 即二次型矩阵。

$\left ( x_1,\cdots,x_n \right )\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n}\\ a_{21} & a_{22} & \cdots & a_{2n}\\ \cdots & \cdots & \cdots & \cdots\\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{bmatrix}\begin{pmatrix} x_1\\ \cdots\\ \cdots\\ x_n \end{pmatrix}$

机器学习中常见形式，比如是一次型： $f(\boldsymbol{x};\boldsymbol{w})=\boldsymbol{w}^T\boldsymbol{x}+b$ ，或者二次型： $f(\boldsymbol{x};\boldsymbol{w})=\boldsymbol{x}^T\boldsymbol{w}\boldsymbol{x}+b$ 。
回看 Hessian 矩阵：对于二次型函数， $f(\boldsymbol{x})=\boldsymbol{x}^T\boldsymbol{A}\boldsymbol{x}$ ：
- $f(\boldsymbol{x})>0,x\ne0,x\in \mathbb{R}$ ，则 $f$ 为正定二次型， $A$ 为正定矩阵；
- $f(\boldsymbol{x})\ge0,x\ne0,x\in \mathbb{R}$ ，则 $f$ 为半正定二次型， $A$ 为半正定矩阵；
- $f(\boldsymbol{x})<0,x\ne0,x\in \mathbb{R}$ ，则 $f$ 为负定二次型， $A$ 为负定矩阵;
- $f(\boldsymbol{x})\le0,x\ne0,x\in \mathbb{R}$ ，则 $f$ 为半负定二次型， $A$ 为半负定矩阵;
- 以上皆不是，不定。

- 特征值和特征向量

矩阵与向量的乘法相当于对向量做了一个线性变换，变换后不一定和原来在一条直线上。
设 $\boldsymbol{A}$ 是 $n$ 阶方阵，若存在数 $\lambda$ 和非零 $n$ 维向量 $\boldsymbol{x}$ ，使得 $\boldsymbol{A}\boldsymbol{x}=\lambda \boldsymbol{x}$ 成立，则称 $\lambda$ 是矩阵 $\boldsymbol{A}$ 的一个特征值 (characteristic value) 或本征值 (eigenvalue)。
$\boldsymbol{Ax}=\lambda \boldsymbol{x} \Rightarrow \left ( \boldsymbol{A}-\lambda \boldsymbol{I }\right )\boldsymbol{x}=0$ ，有非零解的充要条件是系数行列式 $\left | \lambda \boldsymbol{I}-\boldsymbol{A} \right |=0$
$\left | \lambda \boldsymbol{I}-\boldsymbol{A} \right |=\lambda ^n+\alpha _1\lambda ^{n-1}+\alpha _2\lambda ^{n-2}+\cdots+\alpha _{n-1}\lambda+\alpha _n$
5 次和 5 次以上代数方程没有求根公式，工程上计算矩阵特征值使用 QR 算法。
$tr(\boldsymbol{A}) = \sum\limits_{i=1}^{n}a_{ii}=\lambda _1+\lambda _2+\cdots+\lambda _n=\sum\limits_{i=1}^{n}\lambda _i$ ， $\prod\limits_{i=1}^{n}\lambda _i=\left | \boldsymbol{A} \right |$
np.linalg.eig(X)

- 特征值分解

$n\times n$ 矩阵 $\boldsymbol{A}$ 的 $n$ 个特征值 $\lambda_1\le\lambda_2\le\cdots\le\lambda_n$ ，以及这 $n$ 个特征值所对应的特征向量 $\begin{pmatrix}w_1 & w_2 & \cdots & w_n \end{pmatrix}$ ，那么矩阵 $\boldsymbol{A}$ 可以用特征分解表示：$ \boldsymbol{A}=\boldsymbol{W}\boldsymbol{\Sigma}\boldsymbol{W}^{-1}$。特征向量可被正交单位化从而使 $\boldsymbol{W}$ 为正交矩阵。
定理1：设 $\boldsymbol{M}$ 为 $n\times n$ 的矩阵，其特征值为 $\lambda_1,\lambda_2,\cdots,\lambda_n$ ，特征向量为 $\boldsymbol{V}_1,\boldsymbol{V}_2,\cdots,\boldsymbol{V}_n$ ，形成线性无关集合，以每个特征向量为列构成矩阵 $\boldsymbol{A}= \begin{bmatrix}\boldsymbol{V}_1 & \boldsymbol{V}_2 & \cdots & \boldsymbol{V}_n \end{bmatrix}$ 。矩阵 $\boldsymbol{A}$ 可以将矩阵 $\boldsymbol{M}$ 对角化，乘积矩阵 $\boldsymbol{A}^{-1}\boldsymbol{M}\boldsymbol{A}$ 的主对角元素是矩阵 $\boldsymbol{M}$ 的特征值：
$\boldsymbol{A}^{-1}\boldsymbol{M}\boldsymbol{A}=\begin{pmatrix}\lambda_1 & 0 & \cdots & 0\\ 0 & \lambda_2 &\cdots & 0\\ \vdots & \vdots & \ddots &\vdots \\ 0 & 0 & \cdots & \lambda_n \end{pmatrix}$
反之，若存在可逆矩阵 $\boldsymbol{A}$ ，使 $\boldsymbol{A}^{-1}\boldsymbol{M}\boldsymbol{A}$ 为对角矩阵，则矩阵 $\boldsymbol{A}$ 的列等于矩阵 $\boldsymbol{M}$ 的特征向量， $\boldsymbol{A}^{-1}\boldsymbol{M}\boldsymbol{A}$ 的主对角元素为矩阵 $\boldsymbol{M}$ 的特征值。
正交矩阵 $\boldsymbol{P}^{-1}=\boldsymbol{P}^T$ ，行和列相互之间是正交的。
特征分解 (Eigendecomposition)，又称谱分解 (Spectral decomposition)，只有可对角化矩阵才可以作特征分解。一个矩阵可以拆分成一个正交阵和对角矩阵以及正交阵的逆的乘积。

- 多元函数的泰勒展开

$f(\boldsymbol{x})=f(\boldsymbol{x}_k)+[\nabla f(\boldsymbol{x}_k)]^T(\boldsymbol{x}-\boldsymbol{x}_k)+\frac {1}{2}(\boldsymbol{x}-\boldsymbol{x}_k)^TH(\boldsymbol{x}_k)(\boldsymbol{x}-\boldsymbol{x}_k)+\boldsymbol{o}^n$

注： $\nabla f(\boldsymbol{x}_k)$ 是梯度， $H(\boldsymbol{x}_k)$ 是 Hessian 矩阵， $\boldsymbol{x}^T\boldsymbol{A}\boldsymbol{x }\Rightarrow ax^2$ 。

- 矩阵和向量的求导公式

$\nabla (\boldsymbol{w}^T\boldsymbol{x})=\boldsymbol{w}$
$\nabla (\boldsymbol{x}^T\boldsymbol{A}\boldsymbol{x})= (\boldsymbol{A}+\boldsymbol{A}^T)\boldsymbol{x}$
$\nabla ^2 (\boldsymbol{x}^T\boldsymbol{A}\boldsymbol{x})= \boldsymbol{A}+\boldsymbol{A}^T$ 二阶导即再对 $\boldsymbol{x}$ 求导。

- 奇异值分解 (SVD)

可以应用于任意形状的矩阵，区别于谱分解；
$\boldsymbol{A}=\boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{V}^T$ ，其中 $\boldsymbol{A}$ 是 $m\times n$ 的矩阵， $\boldsymbol{U}$ , $\boldsymbol{V}$ 都是正交矩阵， $\boldsymbol{\Sigma}$ 是对角阵 $m\times n$ ；
$\boldsymbol{U}$ 是 $\boldsymbol{A}\boldsymbol{A}^T$ 正交化特征向量构成的 $m\times m$ 矩阵， $\boldsymbol{V}$ 是 $\boldsymbol{A}^T\boldsymbol{A}$ 正交化特征向量构成的 $n\times n$ 矩阵；
$\boldsymbol{\Sigma}$ 是 $m\times n$ 的矩阵，除了主对角线上的元素 (奇异值) 以外全部为0， $\boldsymbol{U}$ , $\boldsymbol{V}$ 都是酉矩阵，即 $\boldsymbol{U}^T\boldsymbol{U}=\boldsymbol{I}$ , $\boldsymbol{V}^T\boldsymbol{V}=\boldsymbol{I}$

- 求解奇异值分解

$n\times n$ 方阵 $\boldsymbol{A}^T\boldsymbol{A}$ 求 $n$ 个特征向量： $(\boldsymbol{A}^T\boldsymbol{A})\boldsymbol{v}_i=\lambda_i\boldsymbol{v}_i$ ，将所有特征向量张成 $n\times n$ 的矩阵 $\boldsymbol{V}$ ，其中每个特征向量叫 $\boldsymbol{A}$ 的右奇异向量；
$m\times m$ 方阵 $\boldsymbol{A}\boldsymbol{A}^T$ 求 $m$ 个特征向量： $(\boldsymbol{A}\boldsymbol{A}^T)\boldsymbol{u}_i=\lambda_i\boldsymbol{u}_i$ ，将所有特征向量张成 $m\times m$ 的矩阵 $\boldsymbol{U}$ ，其中每个特征向量叫 $\boldsymbol{A}$ 的左奇异向量；
$\boldsymbol{A}=\boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{V}^T\Rightarrow \boldsymbol{A}\boldsymbol{V}=\boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{V}^T\boldsymbol{V}\Rightarrow \boldsymbol{A}\boldsymbol{V}=\boldsymbol{U}\boldsymbol{\Sigma}\Rightarrow \boldsymbol{A}\boldsymbol{v}_i=\boldsymbol{\sigma}_i\boldsymbol{u}_i\Rightarrow \boldsymbol{\sigma}_i=\boldsymbol{A}\boldsymbol{v}_i/\boldsymbol{u}_i$
$\boldsymbol{A}^T\boldsymbol{A}=\boldsymbol{V}\boldsymbol{\Sigma}^2\boldsymbol{V}^T,\boldsymbol{A}\boldsymbol{A}^T=\boldsymbol{U}\boldsymbol{\Sigma}^2\boldsymbol{U}^T$

$\boldsymbol{A}^T\boldsymbol{A}$ 特征值与奇异值： $\sigma_i=\sqrt{\lambda_i}$

- 奇异值分解的性质

奇异值矩阵中按照从大到小排列，且减少得特别快，即可以用最大的 $k$ 个奇异值和对应的左右奇异向量来近似描述矩阵：

$\boldsymbol{A}_{m\times n}=\boldsymbol{U}_{m\times m}\boldsymbol{\Sigma}_{m\times n}\boldsymbol{V}_{n\times n}^T\approx \boldsymbol{U}_{m\times k}\boldsymbol{\Sigma}_{k\times k}\boldsymbol{V}_{n\times k}^T$

大的矩阵用三个小矩阵近似描述；
若 $\boldsymbol{\Sigma}$ 中有 $k$ 个非0值： $\sigma_1\ge \sigma_2\ge\cdots\ge\sigma_k>0$ ，则此时乘回去即是 $\boldsymbol{A}$ ；

- SVD 的应用

- 数据压缩

import numpy as np
u, sigma, v = np.linalg.svd(arr)
new_arr = np.mat(u[:,0:2])*np.mat(np.diag(sigma[0:2]))*np.mat(v[0:2,:])
np.rint(new_arr)

- PCA 降维

PCA (principal components analysis) 主成分分析
总体方差： $\sigma^2=\frac{\sum(X-\mu)^2}N$ ，样本方差： $s^2=\frac{\sum (X-\bar{X})}{n-1}$ ，

$D(X)=E[(X-E(X))^2]=E(X^2)-[E(X)]^2$ ，

$D(X\pm Y)=D(X)+D(Y)\pm2Cov(X,Y)$ ， $Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\}$
左奇异向量压缩行，右奇异向量压缩列，即取奇异值较大的左奇异向量或右奇异向量与原数据相乘。

- 协调过滤

用户推荐
用 SVD 分解把样本映射到低维空间

- 矩阵求逆

奇异值求倒数： $\boldsymbol{A}=\boldsymbol{U}\boldsymbol{\Sigma}\boldsymbol{V}^T\Rightarrow \boldsymbol{A}^{-1}=\boldsymbol{V}\boldsymbol{\Sigma}^{-1}\boldsymbol{U}^T$