PCA和AVD

最新推荐文章于 2024-08-07 13:53:44 发布

xsstef

最新推荐文章于 2024-08-07 13:53:44 发布

阅读量296

点赞数

Cr: https://www.cnblogs.com/hadoop2015/p/7419087.html

Cr：https://www.cnblogs.com/zy230530/p/7074215.html

PCA

一、使用PCA降维的好处：寻找在均方意义下，最能代表原始数据的投影方法

特征多余：比如拿到一个汽车的样本，里面既有以“千米/每小时”度量的最大速度特征，也有“英里/小时”的最大速度特征。
特征间相关性很强，可以适当合并。
特征数特别多而样例特别少，已造成过拟合。
去除噪声。

二、原理描述：

PCA(principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据压缩算法。

在PCA中，数据从原来的坐标系转换到新的坐标系。转换坐标系时，以方差最大的方向作为坐标轴方向（数据的最大方差给出了数据最重要的信息）。第一个新坐标轴的选择是原始数据中方差最大的方法，第二个新坐标轴选择的是与第一个坐标轴正交且方差第二大的方向。重复该过程，且重复次数为原始数据的特征维数。

在新坐标系中，大部分方差都包含在前面几个坐标轴中，后面的坐标轴所含的方差几乎为0。于是，我们忽略余下的坐标轴，只保留前面几个含有大部分方差的坐标轴，实现了数据特征的降维处理。数学上，通过计算数据矩阵的协方差矩阵，然后得到协方差矩阵的特征值和特征向量，选择特征值最大（即包含方差最大的）N个特征对应的特征向量组成的矩阵，我们就可以把数据矩阵转换到新的空间当中，实现数据特征的降维。

均值、方差、协方差计算公式：方差和协方差除n-1是为了得到各自的无偏估计

首先根据矩阵的协方差的特征值和特征向量，得到最大的N个特征值对应的特征向量组成的矩阵，可以称之为压缩矩阵；得到压缩矩阵之后，将去除均值的数据矩阵乘以压缩矩阵（去中心化），就实现了将原始特征转化为新的特征空间特征。

去中心化：PCA实则就是对协方差矩阵进行对角化，从协方差矩阵的定义看： Σ=E{(x-E(x)) * (x-E(x))T}，PCA的第一步就是要去均值化。

三、缺点：

1、主成分解释其含义往往具有一定的模糊性，不如原始样本完整

2、贡献率小的主成分往往可能含有对样本差异的重要信息

3、特征值矩阵的正交向量空间是否唯一有待讨论

4、无监督学习

5、SVD通常比直接使用PCA更稳定

SVD

Cr:https://blog.csdn.net/zk_j1994/article/details/76796616

懒得写了，下次再总结

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。