【Python机器学习基础教程】第三章第三节：预处理与缩放

调参侠鱼尾

已于 2022-07-31 22:29:01 修改

阅读量363

点赞数

分类专栏： Python机器学习基础教程文章标签：机器学习 python 无监督学习

于 2022-07-31 21:44:00 首次发布

本文链接：https://blog.csdn.net/weixin_47282404/article/details/126090983

版权

Python机器学习基础教程专栏收录该内容

13 篇文章 4 订阅

订阅专栏

预处理与缩放

预处理与缩放

预处理与缩放

上一章我们学到，一些算法（如神经网络和 SVM）对数据缩放非常敏感。因此，通常的做法是对特征进行调节，使数据表示更适合于这些算法。通常来说，这是对数据的一种简单的按特征的缩放和移动。下面的代码（图 3-1）给出了一个简单的例子：

不同类型的预处理

在图 3-1 中，第一张图显示的是一个模拟的有两个特征的二分类数据集。第一个特征（x轴）位于 10 到 15 之间。第二个特征（y 轴）大约位于 1 到 9 之间。

接下来的 4 张图展示了 4 种数据变换方法，都生成了更加标准的范围。scikit-learn 中的 StandardScaler 确保每个特征的平均值为 0、方差为 1，使所有特征都位于同一量级。但这种缩放不能保证特征任何特定的最大值和最小值。RobustScaler 的工作原理与StandardScaler 类似，确保每个特征的统计属性都位于同一范围。但 RobustScaler 使用的是中位数和四分位数 1
，而不是平均值和方差。这样 RobustScaler 会忽略与其他点有很大不
同的数据点（比如测量误差）。这些与众不同的数据点也叫异常值（outlier），可能会给其他缩放方法造成麻烦。

与之相反，MinMaxScaler 移动数据，使所有特征都刚好位于 0 到 1 之间。对于二维数据集来说，所有的数据都包含在 x 轴 0 到 1 与 y 轴 0 到 1 组成的矩形中。

最后，Normalizer 用到一种完全不同的缩放方法。它对每个数据点进行缩放，使得特征向量的欧式长度等于 1。换句话说，它将一个数据点投射到半径为 1 的圆上（对于更高维度的情况，是球面）。这意味着每个数据点的缩放比例都不相同（乘以其长度的倒数）。如果只有数据的方向（或角度）是重要的，而特征向量的长度无关紧要，那么通常会使用这种归一化。

应用数据变换

前面我们已经看到不同类型的变换的作用，下面利用 scikit-learn 来应用这些变换。我们将使用第 2 章见过的 cancer 数据集。通常在应用监督学习算法之前使用预处理方法（比如缩放）。举个例子，比如我们想要将核 SVM（SVC）应用在 cancer 数据集上，并使用MinMaxScaler 来预处理数据。首先加载数据集并将其分为训练集和测试集（我们需要分开的训练集和数据集来对预处理后构建的监督模型进行评估）：