吴恩达ML课程笔记(Chapter 14:降维dimensionality reduction)

14-1 目标I:数据压缩

1.另一种无监督学习方法:数据降维

2.数据降维的实例:
在这里插入图片描述
拿这个例子来说,我们有两个特征x1,x2,然后我们找到这两个特征之间的关系曲线(就是图中的绿线),然后我们得到第三个特征z1,我们只需要获得各个样本点在z1上的位置,就可以得到相关的特征。这是2维降到1维的方法

3.3维 → \rightarrow 2维,也就是把3D空间上的点投射到一个平面上

14-3 主成分分析问题规划I

1.PCA会找到一个低维平面(当然,也有可能不是平面),使这些点到该平面的距离的平方尽可能小

2.使用PCA前,需要进行均值归一化和特征规范化

3.PCA就是要找出一条直线,或者平面,或者其它维的空间,然后对数据进行投影,以最小化投影平方
在这里插入图片描述
4.线性回归与PCA的区别:
在这里插入图片描述
1)左边的是线性回归,右边的是PCA。他们的差别就在于所要最小化的“距离”的定义不一样
2)线性回归是为了预测一个特殊的变量,而PCA对所有输入数据一视同仁,不需要预测什么特殊变量

14-4 主成分分析问题规划II

1.PCA算法:
在这里插入图片描述
covariance:协方差
eigenvector:特征向量

2.注意,这里的 ∑ \sum_{}{} 表示的是一个矩阵,和通常所用的连加号是不一样的

3.运用了SVD函数后,得到
在这里插入图片描述
如果我们要把数据从n维降到k维,我们只需要选取U矩阵的前k列即可,得到下面的n×k矩阵:
在这里插入图片描述
我们把它称为Ureduce

4.得到这个Ureduce矩阵后,我们通过这样的方法来获得新空间上的位置Z=UreduceTX,其中X是n×1的列向量,这样,得到的Z就是个k×1的列向量了
在这里插入图片描述

14-5 主成分数量选择

1.在选择K前,有两个概念需要了解一下:平均投影距离平方,及变量平方和
在这里插入图片描述
2.我们应该选择k,使得下面这个式子小于0.01:
在这里插入图片描述
这样,99%的数据就都保留下来了。我们可以通过不断修改k的值,直到上述不等式成立

3.还有另外一个选择的标准如下:
在这里插入图片描述

14-7 使用PCA的建议

1.在监督学习中使用PCA的步骤
1)检查已标记的训练集,并抽取输入 ,然后把y先放在一边,然后就得到了如下的无标记数据:
在这里插入图片描述
2)把输入数据用PCA得到更低维的输入数据

2.但要注意的是,第一点中说的PCA得到的是训练集中X到Z的映射,然后我们可以把这个映射应用到验证集和测试集中

3.使用PCA的一个较好的办法是用它来加速学习速度,但是不能用PCA来防止过拟合

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值