机器学习-数据降维算法

最新推荐文章于 2024-09-11 22:48:33 发布

zhuimeng999

最新推荐文章于 2024-09-11 22:48:33 发布

阅读量241

点赞数

文章标签：算法线性代数人工智能

本文链接：https://blog.csdn.net/zhuimeng999/article/details/80490300

版权

姓名：Jyx
描述：人工智能学习笔记

降维的意义

在实际的机器学习案例里，因为我们不能完全的知道那些信息有用，而倾向于收集跟多的信息。这就导致样本非常多，而每个样本数也特别多。直接在这样的样本上进行学习，计算成本非常高。
在对于给定样本数量，有一个特别的峰值现象，就是随着提供的特征增加，预测效果通常不是越来越好，而是存在一个拐点，当特征数量超过这个拐点之后，预测效果反而越来越差。拐点与所选算法的VC维有关。
降维不是必须的，事实上，有时候降维反而会使分类效果变差，这视原始特征有无某种形式的相关性而定。

PCA（主成分分析）

PCA是一种线性降为技术，PCA假定原始特征之间存在线性相关性（即 $E(x_i x_j) \neq 0, i \neq j$ ），PCA的目标就是原始特征映射成互不相关(即 $E(y_i y_j) = 0, i \neq j$ ，这里是统计里的相关性而不是线性代数里的线性相关)的特征而不丢失过多的信息。
计算，令
$\bf{y} = \bf{A}^T\bf{x} \tag{1}$
考虑 $\bf{x}, \bf{y}$ 的自相关矩阵 $\bf{R}_x, \bf{R}_y$ ，有
$\begin{aligned} \bf{R}_y &= E(\bf{y} \bf{y}^T) \\ &=E(\bf{A}^T \bf{x} \bf{x}^T \bf{A}), \text{because } \bf{y} = \bf{A}^T\bf{x}, \bf{y}^T = [\bf{A}^T\bf{x}]^T= \bf{x}^T \bf{A} \\ &=\bf{A}^T E( \bf{x} \bf{x}^T)\bf{A} \\ &=\bf{A}^T \bf{R}_x \bf{A} \tag{2} \end{aligned}$
如前所述，我们希望 $E(y_i y_j) = 0, i \neq j$ ，所以 $\bf{R}_y$ 除对角线外，其余元素全部为0，即 $\bf{R}_y$ 为对角阵。于是2式相当于对 $\bf{R}_x$ 进行对角化，A为由 $\bf{R}_x$ 的特征向量组成的正交矩阵， $\bf{R}_y = diag \{\lambda_1, \lambda_2, ...\}, \lambda_i$ 为 $\bf{R}_x$ 的特征值。
这样我们就求出了变换矩阵 $A$
显然此时维度没有降低(除非有某些 $E(x_i^2) = 0$ )，PCA的基本思想就是保留那些特征值最大的特征向量，而令其余为0，下面介绍之一思想的好处
PCA之所以应用如此广泛，还因为他有如下的性质。
3.1 还原误差最小，PCA是所有将原始特征降到某一维度的不相关变换中还原后方差最小的
如前所述， $A$ 为一正交矩阵 $\bf{A}^{-1} = \bf{A}^T$ ，令 $\bf{a}_i$ 为 $\bf{R}_x$ 的特征向量（列向量），即 $KaTeX parse error: No such environment: smallmatrix at position 57: …= \bigl\{\begin{̲s̲m̲a̲l̲l̲m̲a̲t̲r̲i̲x̲}̲ y_1 \\ y_2 \\…$ ，对于 $K$ 纬的特征向量我们有
$\bf{x} = [\bf{A}^T]^{-1} \bf{y} = [\bf{A}^{-1}]^{-1} \bf{y} =\bf{A} \bf{y} = \sum_{k = 1}^K \bf{a}_k y_k \tag{3}$
对于PCA，当降到 $M (M < K)$ 维时，我们只保留前M个 $y_i$ ，令其余 $y_i = 0,i > M$ ，此时，还原后的 $\bf{x}$ 为
$\hat{\bf{x}} = \sum_{m = 1}^M \bf{a}_m y_m \tag{4}$
均方差估计
$\bf{x} - \hat{\bf{x}} ||^2) = E(|| \sum_{m = 1}^K \bf{a}_m y_m - \sum_{m = 1}^M \bf{a}_m y_m ||^2) \\ = E(|| \sum_{m = M + 1}^K \bf{a}_m y_m ||^2) \tag{5}$
因为特征向量的正交性质，有 $\bf{a}_i \bf{a}_j = 0, i \neq j,\bf{a}_i^T \bf{a}_i = 1$ ，所以5式中的平方展开后所有交叉项均为0，只留下平方项，即
$\bf{x} - \hat{\bf{x}} ||^2) = E(\sum_{m = M + 1}^K y_m ^2) = \sum_{m = M + 1}^K E(y_m ^2) \tag{6}$
根据
$\bf{y} = \bf{A}^T\bf{x} = \left [ \begin{matrix} \bf{a}_1^T \\ \bf{a}_2^T \\ \vdots \end{matrix} \right ] \bf{x} = \left [ \begin{matrix} \bf{a}_1^T\bf{x} \\ \bf{a}_2^T\bf{x} \\ \vdots \end{matrix} \right ]$
有 $y_i = \bf{a}_i^T\bf{x} $，带入6式
$\bf{x} - \hat{\bf{x}} ||^2) =\sum_{m = M + 1}^K E(\bf{a}_m^T\bf{x} \bf{x}^T \bf{a}_m) = \sum_{m = M + 1}^K \bf{a}_m^T E(\bf{x} \bf{x}^T) \bf{a}_m = \sum_{m = M + 1}^K \bf{a}_m^T \bf{R}_x \bf{a}_m \tag{7}$
根据定义 $\bf{a}_m$ 是 $\bf{R}_x$ 的特征向量，即 $\bf{R}_x \bf{a}_m = \lambda_m \bf{a}_m$ ,所以7式可继续化简为
$\bf{x} - \hat{\bf{x}} ||^2) = \sum_{m = M + 1}^K \bf{a}_m^T \lambda_m \bf{a}_m = \sum_{m = M + 1}^K\lambda_m$
由于我们保留了最大的特征值，显然上式和在所有可能的选择中和最小
3.2 方差最大，PCA是所有将原始特征降到某一维度的不相关变换中变换后方差最大的。通常我们将随机变量的方差看成变量所包含的信息，从这一意义上，PCA保留了原始特征的最多信息。
证明:：参考上面的计算过程，我们已经证明了
$E(y_m ^2) = \lambda_m$
由于我们保留的是最大特征值，所以显然此时方差最大
3.3 熵最大
对于m维离散随机变量
熵
$H_y = \frac{1}{2}E[\bf{y}^T \bf{R}_y^{-1} \bf{y}] + \frac{1}{2} \ln{|\bf{R}_y|} + \frac{m}{2} \ln{(2 \pi)} \\ where\ E[\bf{y}^T \bf{R}_y^{-1} \bf{y}] = E[tr[\bf{y}^T \bf{R}_y^{-1} \bf{y}]] =E[tr[ \bf{R}_y^{-1} \bf{y}^T \bf{y}]] =E[ I] = m \\ \ln{|\bf{R}_y|} = \ln{(\lambda_1 \lambda_2 \cdots)}$
显然此时熵最大