第十六章主成分分析

最新推荐文章于 2022-06-06 15:22:21 发布

右边是我女神

最新推荐文章于 2022-06-06 15:22:21 发布

阅读量1.2k

点赞数

分类专栏：机器学习文章标签：线性代数矩阵人工智能

本文链接：https://blog.csdn.net/weixin_46365033/article/details/125110655

版权

机器学习专栏收录该内容

23 篇文章 6 订阅

订阅专栏

文章目录

引入
总体主成分分析
样本主成分分析
- 样本主成分的定义和性质
- 相关矩阵的特征值分解算法

引入

主成分分析是一种常用的无监督学习方法，这一方法利用正交变换把线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据，线性无关的变量被称为主成分。

主成分的个数通常小于原始变量的个数，所以主成分分析属于降维方法。

总体主成分分析

基本想法

数据的变量之间可能存在相关性，以致增加了分析的难度。于是，考虑由少数不相关的变量来代替相关的变量，用于表示数据，并且要求能保留数据中的大部分信息。

步骤：

对给定数据进行规范化；
对数据进行正交变换；

新变量是可能的正交变换中变量的方差和（信息保存）最大的，方差表示在新变量上的信息大小。将新变量依次称为第一主成分、第二主成分等。

可以利用主成分近似地表示原始数据；也可以把数据由少数主成分表示，这相当于对数据的降维。

直观解释

样本由实数空间中的点表示，空间的一个坐标轴表示一个变量。

规范化处理之后得到的数据分布在原点附近。

对原坐标系中的数据进行主成分分析等价于进行坐标系旋转变换，将数据投影到新坐标系的坐标轴上（相当于是原样本点在新坐标系中的坐标）。

新坐标系的第一坐标轴、第二坐标轴分别表示第一主成分、第二主成分，数据在每一轴上的坐标值的平方表示相应变量的方差；并且这个坐标系是在所有可能的新的坐标系中，坐标轴上的方差最大的。

如果只取第一坐标轴，相当于将二维空间压缩到一维空间。

如何理解方差最大？

在这里插入图片描述

在数据总体上进行的主成分分析称为总体主成分分析，在有限样本上进行的称为样本主成分分析。

方差越大，表示我这个样本沿这个方向的越有区分度。这是因为比如说二维到一维少了一维，我这个差异化特征就少了一个，所以我要求这个方差大，来保障这个维度上的差异化。

定义和导出

在这里插入图片描述

协方差矩阵反应的是两两特征之间的协方差。 $y_i$ 是 $y$ 的第 $i$ 个分量，其是对 $x$ 的所有分量进行线性组合得到的。上述性质是针对每一维度的特征来说的。

定义16.1（总体主成分）给定一个如 $y_i=\alpha_i^Tx_i$ 所示的线性变换，如果它们满足以下条件:

系数向量 $\alpha_i^T$ 是单位向量，即 $\alpha_i^T\alpha_i=1$ ；
变量 $y_i$ 与 $y_j$ 互不相关，即 $cov(y_i,y_j)=0（i\not=j）$
变量 $y_1$ 是 $x$ 的所有线性变换中方差最大的； $y_2$ 是与 $y_1$ 不相关的 $x$ 的所有线性变换中方差最大的…;这时分别称 $y_1,y_2,...,y_m$ 是 $x$ 的第一主成分、第二主成分、…、第 $m$ 主成分。

上述是针对总体主成分的定义，总体主成分是一种特殊的线性变换，注意其满足的三个条件。

条件1中表明该线性变换是正交变换。条件2、3给出了求取主成分的方法：

在 $x$ 的所有线性变换：
$\alpha_1^T x=\sum_{i=1}^m\alpha_{i1}x_i$ 中，在 $\alpha_1^T\alpha_1=1$ 条件下，求方差最大的，得到 $x$ 的第一主成分；
在与 $\alpha_1^Tx$ 不相关的 $x$ 的所有线性变换 $\alpha_2^Tx=\sum_{i=1}^m\alpha_{i2}x_i$ 中，在…条件下，求方差最大的，得到 $x$ 的第二主成分；
循环下去，直到求出第 $m$ 主成分。

这里面一个是需要找到 $\alpha_i$ ，怎么找呢？

主要性质

定理部分

定理16.1 设 $x$ 是 $m$ 维随机变量， $\Sigma$ 是 $x$ 的协方差矩阵， $\Sigma$ 的特征值分别是 $\lambda_1\ge\lambda_2\ge ...\ge \lambda_m\ge\lambda_0$ ，特征值对应的单位特征向量分别是 $\alpha_1,\alpha_2,...,\alpha_m$ ，则 $x$ 的第 $k$ 主成分是 $y_k=\alpha_k^T x=\alpha_{1k}x_1+\alpha_{2k}x_2+...+\alpha_{mk}x_m,k=1,2,...,m$ $x$ 的第 $k$ 个主成分的方差是 $D(y_k)=\alpha_k^T\Sigma\alpha_k=\lambda_k$ 即 $\Sigma$ 的第 $k$ 个特征值。

这一定理阐述了总体主成分与协方差的特征值和特征向量的关系，同时给出了一种求主成分的方法。

简述且记忆：线性变化向量为特征向量，此时的方差最大为特征值，序列关系按照方差从大到小排。

在这里插入图片描述

推论16.1 $m$ 维随机变量 $y=(y_1,y_2,...,y_m)^T$ 的分量依次是 $x$ 的第一主成分到第 $m$ 主成分的充要条件是:

$y=A^Tx$ ， $A$ 为正交矩阵；
$y$ 的协方差矩阵为对角矩阵 $cov(y)=diag(\lambda_1,\lambda_2,...,\lambda_m),\lambda_1\ge\lambda_2\ge...\ge\lambda_m$ 。其中 $\lambda_k$ 是 $\Sigma$ 的第 $k$ 个特征值， $\alpha_k$ 是对应的单位特征向量。

性质部分

总体主成分 $y$ 的协方差矩阵是对角矩阵；
总体主成分 $y$ 的方差之和等于随机变量 $x$ 的方差之和；
第 $k$ 个主成分 $y_k$ 与变量 $x_i$ 的相关系数 $\rho(y_k,x_i)$ 称为因子负荷量，它表示第 $k$ 个主成分 $y_k$ 与变量 $x_i$ 的相关关系。计算公式是 $\rho(y_k,x_i)=\frac{\sqrt{\lambda_k}\alpha_{ik}}{\sqrt{\sigma_{ii}}}$ 因为 $\rho(y_k,x_i)=\frac{cov(y_k,x_i)}{\sqrt{var(y_k)var{(x_i)}}}=\frac{cov(\alpha_k^Tx,e_i^Tx)}{\sqrt{\lambda_k}\sqrt{\sigma_{ii}}}$
剩余两个关于因子负荷量的性质不再介绍。

主成分的个数

主成分分析的主要目的是降维，所以一般选择 $k$ 个主成分，使问题得到简化，并能保留原来的大部分信息。

定理16.2 对任意正整数 $q$ ， $1\le q\le m$ ，考虑正交线性变换 $y=B^Tx$ 其中 $y$ 使 $q$ 维向量， $B^T$ 使 $q\times m$ 矩阵，令 $y$ 的协方差矩阵（既是相似变换也是相和变换）为 $\Sigma_y=B^T\Sigma B$ 则 $\Sigma_y$ 的迹 $tr(\Sigma_y)$ 在 $B=A_q$ 时取得最大值，其中 $A_q$ 由正交矩阵 $A$ 的前 $q$ 列组成（A应该是特征向量，那这就有点相似对角化的味道了）。

这里说明的是，当取 $A$ 的前 $q$ 列时能够保证这个原有变量方差信息被最大限度保留，这等价于 $tr(\Sigma_y)$ 最大。

定理16.3考虑正交变换 $y=B^Tx$
这里 $B^T$ 是 $p\times m$ 矩阵， $A$ 和 $\Sigma_y$ 的定义与定理16.2相同，则 $tr(\Sigma_y)$ 在 $B=A_p$ 时，取得最小值， $A_p$ 由 $A$ 的后 $p$ 列组成。

总之16.2和16.3说明了，要想降维的时候，我的信息得到最大限度的保留，就取从大到小排列的特征值对应的特征向量的前 $k$ 个。反之亦然。这边应该是从矩阵层面上给出了规范化的定理。

$定义 16.2$ 第 $k$ 个主成分 $y_k$ 的方差贡献率定义为 $y_k$ 的方差与所有方差之和的比，记作 $\eta_k$ $\eta_k=\frac{\lambda_k}{\sum_{i=1}^m\lambda_i}$ $k$ 个主成分 $y_1,y_2,...,y_k$ 的累积方差贡献率定义为 $k$ 个方差之和与所有方差之和的比 $\sum_{i=1}^k \eta_i=\frac{\sum_{i=1}^k\lambda_i}{\sum_{i=1}^m\lambda_i}$

通常取 $k$ 使得累积方差贡献率达到规定百分比以上，累积方差贡献率反映了主成分保留信息的比例，但不能反映对某个原有变量 $x_i$ 保留信息的比例。

这时通常利用 $k$ 个主成分对原有变量的贡献率：

定义16.3 $k$ 个主成分 $y_1,y_2,...,y_k$ 对原有变量 $x_i$ 的贡献率定义为 $x_i$ 与 $y_1,y_2,...,y_k$ 的相关系数的平方，记作 $v_i$ : $v_i=\rho^2(x_1,(y_1,y_2,...,y_k))$ 计算公式如下： $v_i=\sum_{j=1}^k\rho^2(x_i,y_j)$

规范化变量的总体主成分

实际问题中，不同的变量可能有不同的量纲，为了消除这个影响，常常对各个随机变量实施规范化，使其均值为0，方差为1.

设 $x=(x_1,x_2,...,x_m)^T$ 为 $m$ 维随机变量， $x_i$ 为第 $i$ 鸽随机变量， $i = 1, 2, . . ., m$ ，令 $x^*=\frac{x_i-E(x_i)}{\sqrt{var(x_i)}},i=1,2,...,m$

规范化随机变量的协方差矩阵就是相关矩阵 $R$ 。主成分分析通常在规范化随机变量的协方差矩阵即相关矩阵上进行。

规范化随机变量的总体主成分有以下性质：

规范化变量主成分的协方差矩阵是 $\Lambda^*=diag(\lambda^*_1,...,\lambda^*_m)$ 其中，这些值是相关矩阵的特征值。
协方差矩阵的特征值之和为 $m$ ；
…

样本主成分分析

总体主成分分析是定义在样本总体上的。在实际问题中需要在观测数据上进行主成分分析，这就是样本主成分分析。

样本主成分与总体主成分相同的性质。

样本主成分的定义和性质

假设对 $m$ 维随机变量 $x=(x_1,x_2,...,x_m)^T$ 进行 $n$ 次独立观测，， $x_{1\to n}$ 表示观测样本。

在这里插入图片描述

定义16.4（样本主成分）给定样本矩阵 $X$ 。样本第一主成分 $y_1=a_1^T x$ 是在 $a_1^Ta_1=1$ 条件下，是在 $a_1^Tx_j$ 的样本方差 $a_1^TSa_1$ 最大的 $x$ 的线性变换；样本第二主成分 $y_2=a_2^Tx$ 是在 $a_2^Ta_2=1$ 条件下和 $a_1^TSa_2=0$ 条件下，使得 $a_2^Tx_j$ 的样本方差最大的 $x$ 的线性变换；以此类推。