吴恩达机器学习笔记7-降维

最新推荐文章于 2022-07-19 12:34:34 发布

REFunc

最新推荐文章于 2022-07-19 12:34:34 发布

阅读量171

点赞数

分类专栏：吴恩达机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zic234gh9/article/details/81590387

版权

吴恩达机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

从特征中去掉冗余的部分

2D->1D：线性相关的两个特征变量可以投影到它们的拟合直线上

3D->2D：3维的点可以投影到一个平面上

主成分分析法PCA

寻找一个向量对所有样本点进行投影，获得最小的投影误差。

一般问题：N维数据降到K维，需要K个投影向量

PCA和线性回归的区别：PCA要求样本点到向量的投影的长度最短，是距离的平方最小，而现行回归是函数值的差的平方最小

步骤

均值标准化
$μ j = 1 m \sum i = 1 m x (i) j$ $\mu_j=\frac{1}{m}\sum_{i=1}^mx_j^{(i)}$
$x (i) j = x (i) j - μ j$ $x_j^{(i)}=x_j^{(i)}-\mu_j$
特征缩放
计算协方差矩阵
$σ = 1 m \sum i = 1 m (x (i)) (x (i)) T$ $\sigma=\frac{1}{m}\sum_{i=1}^m(x^{(i)})(x^{(i)})^T$
奇异值分解
$[U, S, V] = s v d (σ)$ $[U,S,V]=svd(\sigma)$
取出U的前K列
$Z=[u^{(1)},u^{(2)},...,u^{(K)}]^T ·X$
Z是k维的数据, $\because (n,k)^T*(n,1)=(k,n) * (n,1)=(k,1)$

如何选取K
平均预测方差

1 m \sum i = 1 m | | x (i) - x (i) a p p r o x | | 2

$\frac{1}{m}\sum_{i=1}^m||x^{(i)}-x_{approx}^{(i)}||^2$
数据总方差

1 m \sum i = 1 m | | x (i) | | 2

$\frac{1}{m}\sum_{i=1}^m||x^{(i)}||^2$
一般来说，选择在满足下列条件的情况下最小

1 m \sum m i = 1 | | x ( i ) - x ( i ) a p p r o x | | 2 1 m \sum m i = 1 | | x ( i ) | | 2 \leq 0.01

$\frac{\frac{1}{m}\sum_{i=1}^m||x^{(i)}-x_{approx}^{(i)}||^2}{\frac{1}{m}\sum_{i=1}^m||x^{(i)}||^2}\leq 0.01$
“99%的误差被保留了”

让k=1，然后逐渐增大k，每次计算这个比值，直到满足条件为止

但是这样的算法比较麻烦， $[U,S,V]=svd(\sigma)$ 中的S是n*n对角阵，上述比值可以用下式计算

1 - \sum k i = 1 S i i \sum n i = 1 S i i

$1-\frac{\sum_{i=1}^k S_{ii}}{\sum_{i=1}^n S_{ii}}$

只需计算一次SVD，改变K的值即可判断误差保留比值
数据重新恢复到高维
Z的维度 $(n,k)^T*(n,1)=(k,n) * (n,1)=(k,1)$
$X'=U_{reduce} * Z$
维度 $(n,k)(n,k)^T(n,1)=(n,k)(k,n)(n,1)=(n,1)$
应用PCA的一些建议
1. 首先取出所有输入数据
2. 将输入数据降维
3. 使用低维数据进行学习
4. 对于测试来说，把数据映射到低维空间（使用 $U_{reduce}$ ）

不建议使用PCA防止过拟合，建议使用PCA来加速训练，用正则化防止过拟合，首先应该考虑不使用PCA的情况

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。