降维是无监督学习问题,降维有两个应用:数据压缩和可视化数据
目标一:数据压缩
如果特征高度相关,就要降低维数。本节主要是用了两个例子,二维降到一维、三维降到二维,来告诉我们什么是降维。
二维降到一维就是把二维的点都映射到一条直线,用一个实数z就可以表示,如下图。
三维降到二维就是把三维的点都映射到一个平面,用两个实数z1和z2就可以表示,如下图。
降维不仅可以减少内存需求,可以使算法运行的更快。
目标2:可视化
当有一个很多维的数据集,我们很难将其可视化。我们可以通过降维把几十维甚至几百维的数据降到2维或3维,这样就可以可视化出来了。
主成分分析问题规划1
降维问题目前最流行的一个算法就是主成分分析(PCA principle components analysis)算法。
PCA会找一个低维平面,然后将数据投影在上面,使样本到这个平面的长度(投影误差)平方最小。
PCA做的是:如果想将数据从二维降到一维,我们要试着找一个向量,假如是向量 u ( i ) u^{(i)} u(i)(无论是正的 u ( i ) u^{(i)} u(i)还是负的 − u ( i ) -u^{(i)} −u(i)都没有关系,因为定义的是同一条直线),我们要找一个数据投影后能够最小化投影误差的方向。
如果有N维向量,那就要找k个向量来对数据进行投影
PCA做的是:找到k个向量,然后将数据以最小化平方投影到这k个向量展开的线性子空间上
PCA和线性回归的比较
PCA和线性回归看起来有些相似,下面我们一起来看一下他们之间的区别: