机器学习实战（十二）降维（PCA、SVD）

最新推荐文章于 2024-07-20 17:25:24 发布

I can丶

最新推荐文章于 2024-07-20 17:25:24 发布

阅读量2.3k

点赞数 4

分类专栏：机器学习文章标签：机器学习降维 PCA SVD 主成分分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhq9695/article/details/83713224

版权

本文介绍了机器学习中的降维技术，包括PCA（主成分分析）和SVD（奇异值分解）。PCA基于最大方差理论，通过特征向量降低数据维度；SVD则通过奇异值分解实现数据的压缩和降噪。文章讨论了如何选择低维空间的维度，并提供了实战案例展示PCA和SVD的降维及矩阵压缩应用。

摘要由CSDN通过智能技术生成

目录

1. 主成分分析PCA（Principal Component Analysis）

2. 奇异值分解SVD（Singular Value Decomposition）

3. 低维空间维度的选择

3.3. 平均投影误差的平方

4. 实战案例

4.3. SVD压缩存储矩阵

学习完机器学习实战的降维，简单的做个笔记。文中部分描述属于个人消化后的理解，仅供参考。

本篇综合了先前的文章，如有不理解，可参考：

吴恩达机器学习（十二）主成分分析

所有代码和数据可以访问我的 github

如果这篇文章对你有一点小小的帮助，请给个关注喔~我会非常开心的~

0. 前言

数据的特征数量，又称作向量的维度。降维（dimensionality reduction）是通过一些方法，减少数据的特征数量，以降低维度。

数据压缩，减小占用的存储空间
加快算法的计算速度
低维平面可以可视化数据

主要有几种降维的方法：

主成分分析（PCA）：将数据映射到低维度的新坐标轴上，以降低维度
因子分析（FA）：假设数据由隐变量和噪声组成，通过找到隐变量，就可以降维
独立成分分析（ICA）：假设数据是由多个数据源混合组成，通过找到数据源，就可以实现降维

本篇主要介绍PCA和利用SVD将数据映射到低维度上。

PCA：

优点：降低数据的复杂性，识别最重要的多个特征
缺点：不一定需要，且可能损失有用信息
适用数据类型：数值型数据

SVD：

优点：简化数据，去除噪声，提高算法的结果
缺点：数据的转换可能难以理解
适用数据类型：数值型数据

数据是指接受的原始材料，其中可能包含噪声和不相关信息，而信息是指数据中的相关部分。

降维技术通常能使得数据变得更容易使用，去除数据中的噪声，获取数据集中的信息量。

1. 主成分分析PCA（Principal Component Analysis）

PCA 基于最大方差理论，寻找低维度的坐标系，使得各个数据点到平面的投影距离最小，如下图所示（图源：机器学习实战）：

若数据投影到坐标轴A上，则各个数据点的投影距离之和大，若数据投影到坐标轴B上，则各个数据点的投影距离之和小，所以应选择坐标轴B。最大方差理论表明，数据投影在坐标轴B上时，数据的方差最大，所以这条坐标轴最能表示原始数据。

若低维坐标系的维度为，则选定每一条坐标轴都需要与先前的所有坐标轴正交，且在剩下的空间中具有最大方差。

PCA 的算法流程：

将数据进行均值归一化
计算数据的协方差矩阵（协方差矩阵维度为 $n \times n$ ）
计算协方差矩阵的特征值和特征向量（特征值个数为，特征向量维度为 $n \times n$ ）
将特征值从大到小排序，取前个特征值的特征向量
通过特征向量，将数据映射到新的空间中，维度为（原始数据维度为 $m\times n$ ，特征向量维度为 $n\times k$ ）

将低维数据映射到高维空间的估计点上，可将降维后的数据乘以特征向量的转置即可。

2. 奇异值分解SVD（Singular Value Decomposition）

SVD 同样可以去除数据中的噪声，用较小的数据集表示原始数据集，实现降维。

SVD 又可以称作隐性语义索引（Latent Semantic Indexing，LSI）或者隐性语义分析（Latent Semantic Analysis，LSA）。

通过

最低0.47元/天解锁文章

关注

4
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。