第十六章:主成分分析(PCA:principal component analysis)
利用 正 交 变 换 \color{red}{正交变换} 正交变换把由线性相关变量表示的观测数据转换为少数几个 由 线 性 无 关 变 量 表 示 \color{red}{由线性无关变量表示} 由线性无关变量表示的数据,同时尽可能的保留较多的原始数据信息, 线 性 无 关 的 变 量 称 为 主 成 分 , \color{red}{线性无关的变量称为主成分}, 线性无关的变量称为主成分,属于 降 维 方 法 \color{red}{降维方法} 降维方法
总体主成分分析
基本思想:首先对给定数据进行 规 范 化 \color{red}{规范化} 规范化(这里是标准化,即减均值,除标准差),使得数据的 每 一 个 变 量 均 值 为 0 , 方 差 为 1 \color{red}{每一个变量均值为0,方差为1} 每一个变量均值为0,方差为1,再进行 正 交 变 换 \color{red}{正交变换} 正交变换,得到若干个 线 性 无 关 的 新 变 量 \color{red}{线性无关的新变量} 线性无关的新变量,依次将这些新变量称为第一主成分、第二主成分等;
主 成 分 分 析 在 旋 转 变 换 中 选 取 离 样 本 点 的 距 离 平 方 和 最 小 的 轴 ( 这 样 , 变 换 后 的 方 差 才 能 最 大 ) 作 为 第 一 主 成 分 ; \color{red}{主成分分析在旋转变换中选取离样本点的距离平方和最小的轴(这样,变换后的方差才能最大)作为第一主成分;} 主成分分析在旋转变换中选取离样本点的距离平方和最小的轴(这样,变换后的方差才能最大)作为第一主成分;
第二主成分等的选取,在 保 证 与 已 选 坐 标 轴 正 交 \color{red}{保证与已选坐标轴正交} 保证与已选坐标轴正交的条件下,类似的进行;
m维向量 x 到 m 维向量的线性变换:
y i = a i T x = a 1 i x 1 + a 2 i x 2 + ⋯ + a m i x m , i = 1 , 2 , . . . , m \color{red}{y_i=a_i^Tx=a_{1i}x_1+a_{2i}x_2+\cdots+a_{mi}x_m},i=1,2,...,m yi=aiTx=a1ix1+a2ix2+⋯+amixm,i=1,2,...,m
c o v ( y i , y j ) = a i T Σ a j = 0 , 表 示 y i , y j 线 性 无 关 , Σ 为 x 的 协 方 差 矩 阵 \color{red}{cov(y_i,y_j)=a_i^T\Sigma{a_j}}=0,表示y_i,y_j线性无关,\Sigma为x的协方差矩阵 cov(yi,