[Machine Learning] 12 降维(Dimensionality Reduction)

最新推荐文章于 2022-11-28 20:21:25 发布

今天你DEBUG了吗

最新推荐文章于 2022-11-28 20:21:25 发布

阅读量480

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_45399074/article/details/107461386

版权

降维是无监督学习的一种，常用于数据压缩和可视化。PCA（主成分分析）是最常见的降维方法，通过寻找数据的最佳低维表示，减少特征维度。PCA通过最小化投射误差来确定主成分，可用于数据压缩并保持大部分信息。选择主成分的数量通常基于保留数据方差的比例。PCA在图像处理、计算机视觉等领域有应用，但不应用于减少过拟合，而应视需求使用。

摘要由CSDN通过智能技术生成

在这里插入图片描述

点Ta

- 12 Dimensionality Reduction(降维)

12 Dimensionality Reduction(降维)

12.1 Motivation I_ Data Compression

第二种无监督学习问题，称为降维。使用降维可以实现数据压缩，数据压缩不仅可以压缩数据，因为使用较少的计算机内存或磁盘空间，所以它也加快了学习算法。

那么，什么是降维？举一个例子，有一个数据集，其含有许多特征。
在这里插入图片描述
假设有两个未知的特征：𝑥1:长度：用厘米表示；𝑥2：是用英寸表示同一物体的长度。所以，这给了我们高度冗余表示，也许这两个特征𝑥1和𝑥2，能减少数据到一维。

将数据从二维降至一维：假使要采用两种不同的仪器来测量一些东西的尺寸，其中一个仪器测量结果的单位是英寸，另一个仪器测量的结果是厘米，我们希望将测量的结果作为我们机器学习的特征。现在的问题的是，两种仪器对同一个东西测量的结果不完全相等（由于误差、精度等），而将两者都作为特征有些重复，因而，我们希望将这个二维的数据降至一维。
在这里插入图片描述
将数据从三维降至二维：这个例子中我们要将一个三维的特征向量降至一个二维的特征向量。过程是与上面类似的，将三维向量投射到一个二维的平面上，强迫使得所有的数据都在同一个平面上，降至二维的特征向量。
在这里插入图片描述
这样的处理过程可以被用于把任何维度的数据降到任何想要的维度，例如将 1000 维的特征降至 100 维。

12.2 Motivation II_ Visualization

在许多机器学习问题中，如果能将数据可视化，便能寻找到一个更好的解决方案，其中降维就有助于实现这一目的。
在这里插入图片描述
例如，一个数据集包含有许多不同国家的数据，每一个特征向量都有 50 个特征（如 GDP，人均 GDP，平均寿命等）。如果要将这个 50 维的数据可视化是不可能的。使用降维的方法将其降至 2 维，便可以将其可视化了。
在这里插入图片描述