奇异值分解（SVD）与主成分分析（PCA）

山登绝顶我为峰 3(^v^)3

已于 2022-06-06 22:06:50 修改

阅读量1k

点赞数

分类专栏：数学代码文章标签：算法数学线性代数数据分析机器学习

于 2022-04-26 22:22:51 首次发布

本文链接：https://blog.csdn.net/weixin_44885334/article/details/124438873

版权

代码同时被 2 个专栏收录

35 篇文章 1 订阅

订阅专栏

数学

33 篇文章 5 订阅

订阅专栏

线性映射

线性映射同构于矩阵乘。线性空间的一组基 $\alpha=(\alpha_1, \cdots, \alpha_n)$ ，一个点的坐标为 $x=(x_1,\cdots,x_n)$ ，那么点可以记做两者内积 $\alpha \cdot x = \sum_{i=1}^{n} x_i\alpha_i$ 。注意，基不一定是向量，可以是任何线性无关的对象（比如，三角函数）。

线性映射 $\mathscr A :\mathbb U \rightarrow \mathbb V$ ，在空间 $U$ 下的基 $(\alpha_1, \cdots, \alpha_n)$ 下和空间 $V$ 下的基 $(\beta_1, \cdots, \beta_m)$ 的矩阵是 $A$ ，在空间 $U$ 下的基 $(\tilde \alpha_1, \cdots, \tilde \alpha_n)$ 下和空间 $V$ 下的基 $(\tilde \beta_1, \cdots, \tilde \beta_m)$ 的矩阵是 $B$ ，即
$\mathscr A(\alpha_1, \cdots, \alpha_n) = (\beta_1, \cdots, \beta_m)A\\ \mathscr A(\tilde \alpha_1, \cdots, \tilde \alpha_n) = (\tilde \beta_1, \cdots, \tilde \beta_m)B\\$
假设 $(\alpha_1, \cdots, \alpha_n)$ 到 $(\tilde \alpha_1, \cdots, \tilde \alpha_n)$ 的过渡矩阵为 $P$ ， $(\beta_1, \cdots, \beta_m)$ 到 $(\tilde \beta_1, \cdots, \tilde \beta_m)$ 的过渡矩阵为 $Q$ ，即
$(\alpha_1, \cdots, \alpha_n)P=(\tilde \alpha_1, \cdots, \tilde \alpha_n)\\ (\beta_1, \cdots, \beta_m)Q=(\tilde \beta_1, \cdots, \tilde \beta_m)$
那么 $B = Q A P$ （相抵），相抵矩阵代表相同的线性映射。对于基 $\alpha$ 下坐标为 $x$ 的点 $P_1 \in \mathbb U$ ，映射到了 $P_2 = \mathscr A(\alpha \cdot x) = \mathscr A(\alpha) \cdot x = (\beta_1, \cdots, \beta_m)Ax$ ，在基 $\beta$ 下点 $P_2 \in \mathbb V$ 的坐标为 $y = A x$

线性变换 $\mathscr A :\mathbb V \rightarrow \mathbb V$ ，空间 $V$ 的两组基 $(\alpha_1, \cdots, \alpha_n),(\tilde \alpha_1, \cdots, \tilde \alpha_n)$ ，若
$\mathscr A(\alpha_1, \cdots, \alpha_n) = (\alpha_1, \cdots, \alpha_n)A\\ \mathscr A(\tilde \alpha_1, \cdots, \tilde \alpha_n)= (\tilde \alpha_1, \cdots, \tilde \alpha_n)B\\$
假设从基 $\alpha$ 到基 $\tilde \alpha$ 的过渡矩阵为可逆方阵 $P$ ，即
$(\alpha_1, \cdots, \alpha_n)P=(\tilde \alpha_1, \cdots, \tilde \alpha_n)$
那么 $B=P^{-1}AP$ （相似），相似矩阵代表相同的线性变换。对于基 $\alpha$ 下坐标为 $x$ 的点 $P_1\in \mathbb V$ ，映射到了 $P_2 = \mathscr A(\alpha \cdot x) = \mathscr A(\alpha) \cdot x = (\alpha_1, \cdots, \alpha_n)Ax$ ，在基 $\alpha$ 下点 $P_2\in \mathbb V$ 的坐标为 $y = A x$

SVD

对角化：对于 $n$ 维方阵 $A$ ，如果存在 $n$ 个线性无关的特征向量 $w_1,\cdots,w_n$ ，以及对应的特征值 $\lambda_1 \le \cdots \le \lambda_n$ ，那么可以表示为： $\Sigma W^{-1}$ ，其中 $W=[w_1,\cdots,w_n]$ ， $\Sigma=diag(\lambda_1,\cdots,\lambda_n)$

一个实对称矩阵（ $A=A^T \in R^{n\times n}$ ），它满足：

不同特征值对应的特征向量彼此正交
若特征值 $\lambda$ 的重数为 $r$ ，那么就存在 $r$ 个线性无关的特征向量 $\lambda$ （几何重数=代数重数）

因此，一个 $n$ 阶实对称方阵中一定可以找到 $n$ 个单位正交特征向量！或者说，存在 $W^TW=I$ （酉矩阵，这里是共轭转置）

对于长矩阵 $\in R^{m \times n}$ ，有

特征值分解：

计算协方差矩阵 $\frac{1}{n-1} A^T A \in R^{n \times n}$ （无偏估计，不除以 $n - 1$ 或者除以 $n$ 都不影响特征值和特征向量）
协方差矩阵 $C$ 是 $n$ 阶实对称方阵，因此可以对角化： $\Sigma W^T$

奇异值分解（Singular Value Decomposition，SVD）：

对于矩阵 $A^T A \in R^{n \times n}$ ，计算 $n$ 个单位正交的特征向量（右奇异向量 $v_i$ ），按列组合成酉矩阵 $\in R^{n \times n}$ ，对应的特征值为 $\lambda_i$
对于矩阵 $A^T \in R^{m \times m}$ ，计算 $m$ 个单位正交的特征向量（左奇异向量 $u_i$ ），按列组合成酉矩阵 $\in R^{m \times m}$ ，对应的特征值为 $\tilde \lambda_i$
根据 $\sigma_i = Av_i/u_i$ 或者 $\sigma_i^2=\lambda_i=\tilde \lambda_i$ 计算奇异值，组合成 $\Sigma \in R^{m \times n}$ ，它的对角线是对应的奇异值
最终得到 $\Sigma V^T$ （易知， $\Sigma$ ， $A^T A = V \Sigma^T U^T \cdot U \Sigma V^T = V \Sigma^2 V^T$ ， $A^T = U \Sigma V^T \cdot V \Sigma^T U^T = U \Sigma^2 U^T$ ）

一般地，特征值分解以及奇异值分解都将 $\Sigma$ 中的特征值或奇异值按照从大到小的顺序排列。并且，奇异值会快速衰减（前10%甚至1%的奇异值的加和，可以占全部奇异值之和的99%以上），可用于压缩数据。

用numpy计算，

import numpy as np

A = np.array([[-1, 1, 1],
              [-4, 3, 2],
              [1, 0, 3]])

#特征值、特征向量
eigenvalue, featurevector = np.linalg.eig(A)	#计算
index = list(reversed(np.argsort(eigenvalue)))	#从大到小排序
eigenvalue = eigenvalue[index]
featurevector = featurevector.T[index]
print("特征值：\n", eigenvalue)
print("特征向量：\n", featurevector)

#逆矩阵
det = np.linalg.det(W)
print("det:",det)
W_inv = np.linalg.inv(W) 
print("W_inv:\n",W_inv)

#特征值的对角阵
Sigma = np.diag(eigenvalue) 
print("Sigma:\n",Sigma)

# A2 = A
A2 = W@Sigma@W_inv
print("A2:\n",A2)

其实，更简单的

# 特征值分解
S,W = np.linalg.eig(A)
print("\nW = \n",W)
print("\nS = \n",S)
print("\nA2 = \n",(W*S)@np.linalg.inv(W))	#W * diag(S) * W.inv

A = np.array([[-1, 1, 1, 5],
              [-4, 3, 2, -2],
              [1, 0, 3, 1]])

# 奇异值分解
U, S, VT = np.linalg.svd(A)
print("\nU = \n",U)
print("\nS = \n",S)
print("\nV.T = \n",VT)
Sigma = np.zeros(A.shape)
for i,s in enumerate(S):
	Sigma[i,i]=s
print("\nA2 = \n",U@Sigma@VT)	#U * diag(S) * V.T

PCA

主成分分析（Principal Component Analysis，PCA）是非常经典的降维算法。

对于 $\in R^{m \times n}$ ，它表示 $m$ 维特征空间中的 $n$ 个数据点，但特征的维度 $m$ 过大

方法一：

去中心化，将各特征（如 $A_{ij}$ ）减去它们的均值（如 $\frac{1}{n-1}\sum_{j=1}^n A_{ij}$ ），得到矩阵 $\in R^{m \times n}$
计算协方差矩阵 $\frac{1}{n-1} X^T X \in R^{n \times n}$
做特征值分解， $\Sigma W^T$
选取最大的 $k$ 个特征值，将 $W$ 截取最左边的 $k$ 个特征向量，按行组合成矩阵 $P$
做线性变换， $\in R^{k \times n}$ ，这是 $\ll n$ 维空间中的 $n$ 个数据点

方法二：

去中心化，将各特征（如 $A_{ij}$ ）减去它们的均值（如 $\frac{1}{n-1}\sum_{j=1}^n A_{ij}$ ），得到矩阵 $\in R^{m \times n}$
做奇异值分解， $\Sigma V^T$
选取最大的 $k$ 个奇异值，将 $U$ 截取最左边的 $k$ 个特征向量，按行组合成矩阵 $P$
做线性变换， $\in R^{k \times n}$ ，这是 $\ll n$ 维空间中的 $n$ 个数据点

PCA的含义：由于截取的 $k$ 个特征值较大，这意味着，在对应的特征向量的方向上的方差较大。由于 $P$ 是由特征向量按行组合的，且这些特征向量彼此单位正交，所以 $Y = P A$ 其实就是将 $m$ 维空间中的 $n$ 个数据点，正交投影到这些特征向量张成的 $k$ 维子空间中（内积就是投影系数），矩阵 $\in R^{k \times m}$ 是从 $m$ 维空间到 $k$ 维子空间的线性变换。我们认为这 $k$ 维子空间上的投影是消息本身，而另外 $m - k$ 维补空间内的投影则是噪音。

选取合适的主成分个数 $k$ ：
$\frac{\sum_{i=1}^k \Sigma_{ii}}{\sum_{i=1}^n \Sigma_{ii}} \le t$
这里的 $t$ 是误差大小，选取 $t = 0.01$ 表示主成分保留了至少 $99\%$ 的原始信息。

代码实现，

def PCA(X,k):
	'X是m*n长矩阵，m维空间中的n个数据点'
	X_mean = np.mean(X,1)			#每一行的均值
	X2 = np.array(X,dtype=float)
	for i,x in enumerate(X2):		#去中心化
		X2[i] = x-X_mean[i]
	U, S, VT = np.linalg.svd(X2)	#SVD
	tmp = 0
	for i in range(k):
		tmp += S[i]
	t = 1 - tmp/np.sum(S)			#误差大小
	P = U[:,:k].T
	return P@X, t					#（投影，误差）

山登绝顶我为峰 3(^v^)3

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
奇异值分解（SVD）与主成分分析（PCA）

线性映射线性映射同构于矩阵乘。线性空间的一组基α=(α1,⋯ ,αn)\alpha=(\alpha_1, \cdots, \alpha_n)α=(α1,⋯,αn)，一个点的坐标为x=(x1,⋯ ,xn)x=(x_1,\cdots,x_n)x=(x1,⋯,xn)，那么点可以记做两者内积α⋅x=∑i=1nxiαi\alpha \cdot x = \sum_{i=1}^{n} x_i\alpha_iα⋅x=∑i=1nxiαi。注意，基不一定是向量，可以是任何线性无关的对象（比如，三角函数）。线性
复制链接

扫一扫