论文合作、课题指导请联系QQ2279055353
California Housing 数据集
California Housing
数据集包括9个变量、20,640个观测。其中,特征Feature 0 (median income in a block) and feature 5 (number of households) 有不同的scales
,且带有大量的利群点(outliers
). 该数据集的这些特性使得它很难可视化,更重要的是,不同的scales
使很多机器学习算法降低了预测表现。
事实上,很多统计估计量假设特征具有零均值,可比较的scales
. 特别是,基于测度或梯度的估计量经常要求数据标准化,即,具有零均值、单位方差。但也有例外,基于决策树的估计量对任何scale
的数据都是健壮的。本讲介绍使用不同的scalers
, transformers
, and normalizers
, 把数据转换到一个预先定义的范围内。
Scalers
是线性变换,通过设置不同的shift
参数缩放特征。QuantileTransformer
提供非线性变换。PowerTransformer
提供映射到正态分布的非线性变换。n