14-1 目标I:数据压缩
1.另一种无监督学习方法:数据降维
2.数据降维的实例:
拿这个例子来说,我们有两个特征x1,x2,然后我们找到这两个特征之间的关系曲线(就是图中的绿线),然后我们得到第三个特征z1,我们只需要获得各个样本点在z1上的位置,就可以得到相关的特征。这是2维降到1维的方法
3.3维 → \rightarrow → 2维,也就是把3D空间上的点投射到一个平面上
14-3 主成分分析问题规划I
1.PCA会找到一个低维平面(当然,也有可能不是平面),使这些点到该平面的距离的平方尽可能小
2.使用PCA前,需要进行均值归一化和特征规范化
3.PCA就是要找出一条直线,或者平面,或者其它维的空间,然后对数据进行投影,以最小化投影平方
4.线性回归与PCA的区别:
1)左边的是线性回归,右边的是PCA。他们的差别就在于所要最小化的“距离”的定义不一样
2)线性回归是为了预测一个特殊的变量,而PCA对所有输入数据一视同仁,不需要预测什么特殊变量
14-4 主成分分析问题规划II
1.PCA算法:
covariance:协方差
eigenvector:特征向量
2.注意,这里的 ∑ \sum_{}{} ∑表示的是一个矩阵,和通常所用的连加号是不一样的
3.运用了SVD函数后,得到
如果我们要把数据从n维降到k维,我们只需要选取U矩阵的前k列即可,得到下面的n×k矩阵:
我们把它称为Ureduce
4.得到这个Ureduce矩阵后,我们通过这样的方法来获得新空间上的位置Z=UreduceTX,其中X是n×1的列向量,这样,得到的Z就是个k×1的列向量了
14-5 主成分数量选择
1.在选择K前,有两个概念需要了解一下:平均投影距离平方,及变量平方和
2.我们应该选择k,使得下面这个式子小于0.01:
这样,99%的数据就都保留下来了。我们可以通过不断修改k的值,直到上述不等式成立
3.还有另外一个选择的标准如下:
14-7 使用PCA的建议
1.在监督学习中使用PCA的步骤
1)检查已标记的训练集,并抽取输入 ,然后把y先放在一边,然后就得到了如下的无标记数据:
2)把输入数据用PCA得到更低维的输入数据
2.但要注意的是,第一点中说的PCA得到的是训练集中X到Z的映射,然后我们可以把这个映射应用到验证集和测试集中
3.使用PCA的一个较好的办法是用它来加速学习速度,但是不能用PCA来防止过拟合