Sklearn 与 TensorFlow 机器学习实用指南——第八章总结

最新推荐文章于 2024-05-11 09:53:41 发布

昵称不火

最新推荐文章于 2024-05-11 09:53:41 发布

阅读量716

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/yanying1113/article/details/86470487

版权

本文介绍了机器学习中解决维数灾难问题的降维技术，包括主成分分析（PCA）、核PCA和局部线性嵌入（LLE）。PCA通过保留最大方差的主成分进行降维，而核PCA则利用核技巧处理非线性问题。LLE专注于保持局部线性关系，适合展开扭曲的流形。降维虽能加速训练但可能损失信息，应谨慎使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第八章主要讲解了降维和聚类（正文没有，代码中有所涉及）相关内容，本文做监督概述，参考地址，代码地址。
很多机器学习的问题都会涉及到有着几千甚至数百万维的特征的训练实例。这不仅让训练过程变得非常缓慢，同时还很难找到一个很好的解，我们接下来就会遇到这种情况。这种问题通常被称为维数灾难（curse of dimentionality）。

警告：降维肯定会丢失一些信息（这就好比将一个图片压缩成 JPEG 的格式会降低图像的质量），因此即使这种方法可以加快训练的速度，同时也会让你的系统表现的稍微差一点。降维会让你的工作流水线更复杂因而更难维护。所有你应该先尝试使用原始的数据来训练，如果训练速度太慢的话再考虑使用降维。在某些情况下，降低训练集数据的维度可能会筛选掉一些噪音和不必要的细节，这可能会让你的结果比降维之前更好（这种情况通常不会发生；它只会加快你训练的速度）。

本章中，我们将会讨论维数灾难问题并且了解在高维空间的数据。然后，我们将会展示两种主要的降维方法：投影（projection）和流形学习（Manifold Learning），同时我们还会介绍三种流行的降维技术：主成分分析（PCA），核主成分分析（Kernel PCA）和局部线性嵌入（LLE）。

维数灾难

很多物体在高维空间表现的十分不同。比如，如果你在一个正方形单元中随机取一个点（一个1×1的正方形），那么随机选的点离所有边界小于 0.001（靠近中间位置）的概率为 0.4%（1 - 0.998^2）（换句话说，一个随机产生的点不大可能严格落在某一个维度上。但是在一个 1,0000 维的单位超正方体（一个1×1×…×1的立方体，有 10,000 个 1），这种可能性超过了 99.999999%。在高维超正方体中，大多数点都分布在边界处。

还有一个更麻烦的区别：如果你在一个平方单位中随机选取两个点，那么这两个点之间的距离平均约为 0.52。如果您在单位 3D 立方体中选取两个随机点，平均距离将大致为 0.66。但是，在一个 1,000,000 维超立方体中随机抽取两点呢？那么，平均距离，信不信由你，大概为 408.25（大致 1000000/6的开方）！这非常违反直觉：当它们都位于同一单元超立方体内时，两点是怎么距离这么远的？这一事实意味着高维数据集有很大风险分布的非常稀疏：大多数训练实例可能彼此远离。当然，这也意味着一个新实例可能远离任何训练实例，这使得预测的可靠性远低于我们处理较低维度数据的预测，因为它们将基于更大的推测（extrapolations）。
简而言之，训练集的维度越高，过拟合的风险就越大。

降维的主要方法

在我们深入研究具体的降维算法之前，我们来看看降低维度的两种主要方法：投影和流形学习。

投影（Projection）

在大多数实际问题中，训练实例并不是在所有维度上均匀分布的。一些特征相关性不大，一些特征高度相关。
比如将3D数据集投影到2D，实现了降维。
在这里插入图片描述

除了简单地投影到低维空间之外，子空间可能发生扭动和旋转，比如著名地如是滚动玩具数据集。

流形学习

上面提到的瑞士卷一个是二维流形的例子。
许多降维算法通过对训练实例所在的流形进行建模从而达到降维目的；这叫做流形学习。它依赖于流形猜想（manifold assumption），也被称为流形假设（manifold hypothesis），它认为大多数现实世界的高维数据集大都靠近一个更低维的流形。这种假设经常在实践中被证实。
流形假设通常包含着另一个隐含的假设：你现在的手上的工作（例如分类或回归）如果在流形的较低维空间中表示，那么它们会变得更简单。

主成分分析（PCA）

主成分分析（Principal Component Analysis）是目前为止最流行的降维算法。首先它找到接近数据集分布的超平面，然后将所有的数据都投影到这个超平面上。

保留（最大）方差

在将训练集投影到较低维超平面之前，您首先需要选择正确的超平面。下图右边是将数据集投影到每个轴上的结果。正如你所看到的，投影到实线上保留了最大方差，而在点线上的投影只保留了非常小的方差，投影到虚线上保留的方差则处于上述两者之间。
在这里插入图片描述
选择保持最大方差的轴看起来是合理的，因为它很可能比其他投影损失更少的信息。证明这种选择的另一种方法是，选择这个轴使得将原始数据集投影到该轴上的均方距离最小。这是就 PCA 背后的思想，相当简单。

最低0.47元/天解锁文章