数据预处理第7讲:具有离群点数据的缩放方法比较

本文探讨了在存在离群点的情况下,如何使用StandardScaler、MinMaxScaler、PowerTransformer和Normalizer对California Housing数据集进行特征缩放。StandardScaler在离群点存在时可能导致不平衡的特征分布,而MinMaxScaler基于分位数,对离群点影响相对较小。PowerTransformer通过幂变换使数据接近正态分布,Normalizer则确保样本为单位范数。
摘要由CSDN通过智能技术生成

论文合作、课题指导请联系QQ2279055353

California Housing 数据集

California Housing数据集包括9个变量、20,640个观测。其中,特征Feature 0 (median income in a block) and feature 5 (number of households) 有不同的scales,且带有大量的利群点(outliers). 该数据集的这些特性使得它很难可视化,更重要的是,不同的scales使很多机器学习算法降低了预测表现。
事实上,很多统计估计量假设特征具有零均值,可比较的scales. 特别是,基于测度或梯度的估计量经常要求数据标准化,即,具有零均值、单位方差。但也有例外,基于决策树的估计量对任何scale的数据都是健壮的。本讲介绍使用不同的scalers, transformers, and normalizers, 把数据转换到一个预先定义的范围内。

  • Scalers是线性变换,通过设置不同的shift参数缩放特征。
  • QuantileTransformer提供非线性变换。
  • PowerTransformer提供映射到正态分布的非线性变换。
  • n
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值