数据预处理第7讲：具有离群点数据的缩放方法比较

最新推荐文章于 2024-08-05 11:28:49 发布

Goodsta

最新推荐文章于 2024-08-05 11:28:49 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/wong2016/article/details/104555798

版权

本文探讨了在存在离群点的情况下，如何使用StandardScaler、MinMaxScaler、PowerTransformer和Normalizer对California Housing数据集进行特征缩放。StandardScaler在离群点存在时可能导致不平衡的特征分布，而MinMaxScaler基于分位数，对离群点影响相对较小。PowerTransformer通过幂变换使数据接近正态分布，Normalizer则确保样本为单位范数。

摘要由CSDN通过智能技术生成

论文合作、课题指导请联系QQ2279055353

California Housing 数据集

California Housing数据集包括9个变量、20,640个观测。其中，特征Feature 0 (median income in a block) and feature 5 (number of households) 有不同的scales，且带有大量的利群点(outliers). 该数据集的这些特性使得它很难可视化，更重要的是，不同的scales使很多机器学习算法降低了预测表现。
事实上，很多统计估计量假设特征具有零均值，可比较的scales. 特别是，基于测度或梯度的估计量经常要求数据标准化，即，具有零均值、单位方差。但也有例外，基于决策树的估计量对任何scale的数据都是健壮的。本讲介绍使用不同的scalers, transformers, and normalizers, 把数据转换到一个预先定义的范围内。