目录
学习完吴恩达老师机器学习课程的降维,简单的做个笔记。文中部分描述属于个人消化后的理解,仅供参考。
如果这篇文章对你有一点小小的帮助,请给个关注喔~我会非常开心的~
0. 前言
数据的特征数量,又称作向量的维度。降维(dimensionality reduction)是通过一些方法,减少数据的特征数量,以降低维度,通常采用主成分分析PCA(Principal Component Analysis)。降维的作用有:
- 数据压缩,减小占用的存储空间
- 加快算法的计算速度
- 低维平面可以可视化数据
初始作如下定义:
- --- 第 个数据的第 个向量
- --- 向量
- --- 高维向量映射到低维平面后,在高维空间中的位置
- --- 高维向量映射到低维平面后,在低维空间中的位置
1. 主成分分析(PCA)
主成分分析PCA是寻找一个低维平面,使得各个数据点到平面的投影距离最小,换句话说,就是寻找 个向量,作为子空间,将数据映射到这个子空间上,则数据的维度转换为 。
如下图所示(图源:吴恩达机器学习),三维空间的数据几乎可看作分布在一个斜面上,则可在这个斜面上建立一个二维的平面,将数据映射上去,转换为二维空间。