第23章 降维算法:PCA主成分分析
概述
无监督
方差
计算流程与实例
- 数据
5个数据,2个特征
向量表示
基变换
基变换
变换解释
基变换
p
i
p_i
pi:基向量
a
i
a_i
ai : 向量
找到合适的基
方差越大,越来越分散
协方差: a,b特征之间的关系,范围【-1,+1】。
+1 表示两个特征之间的投影相似度很高,
-1 则投影相似度非常低
0中心化,
协方差
-
10维度降到2维度
10维度数据,降为为2维度。
用方差最大,那么2个维度的数据方向是相近的
x,y 的协方差非常接近 +1
-
10维度降到4维度
仍然使用方差最大,结果仍然是数据的
使用方差最大,不管是降到几维度,那么所有的降维结果,在第一个方差A最大的出现后,剩下的会尽可能的去接近A,表现为在方差A的方向上的投影最大
- 协方差
0 的时候,两个维度是互相垂直,相互独立
i: 样本
j,k: 第 j, k 个特征
PCA 求解
优化目标
方差尽可能大
协方差为0
-
协方差
-
方差
对角化
非对角线位置的值,化成 0
越大的,权值越高
对角化化简
如,算出 N 个特征向量,然后,进行排序,取前面的K个重要的特征,便实现降维。
PCA 计算实例
- 数据
5个数据,2个特征
- 特征值与特征向量
这个是关于协方差矩阵 的特征值与特征向量
降成一维度
计算出特征值后,选择特征值大的那个对应的特征向量,然后用它进行单位化,之后降维
- 对角化
性质
与LDA
更LDA类似。
但是PCA通过方差与协方差,而LDA是通过类别
代码实例
归一化,标准化,正太分布处理。
疑问
- 降维实例中,各个步骤的意义??