【机器学习个人笔记】scikit-learn的四种特征缩放方式

本文是关于scikit-learn库中四种特征缩放方法的个人学习笔记,包括StandardScaler、MinMaxScaler、RobustScaler和MaxAbsScaler。StandardScaler通过居中和缩放数据实现单位方差;MinMaxScaler将数据缩放至0-1范围;RobustScaler利用四分位数进行缩放,适用于存在异常值的情况;MaxAbsScaler则保留数据的稀疏性,常用于稀疏矩阵的缩放。
摘要由CSDN通过智能技术生成

【机器学习个人笔记】scikit-learn的四种特征缩放方式

在运用一些机器学习算法的时候不可避免地要对数据进行特征缩放(feature scaling),比如:在随机梯度下降(stochastic gradient descent)算法中,特征缩放有时能提高算法的收敛速度。

特征缩放还可以使机器学习算法工作的更好。比如在K近邻算法中,分类器主要是计算两点之间的欧几里得距离,如果一个特征比其它的特征有更大的范围值,那么距离将会被这个特征值所主导。因此每个特征应该被归一化,比如将取值范围处理为0到1之间。

先来看看原始数据集

原始数据集
接下来我将介绍我在学习过程中遇到的三种特征缩放的方法:

1.preprocessing.StandardScaler(X)

copy : boolean, optional, 默认为True
如果为False,请尝试避免复制并改为进行缩放。 这并不能保证始终在原地工作; 例如 如果数据不是NumPy数组或scipy.sparse CSR矩阵,则仍可能返回副本。
with_mean : boolean, 默认为True
如果为True,则在缩放之前将数据居中。 当在稀疏矩阵上尝试时,这不起作用(并且会引发异常),因为它们的居中需要构建一个密集矩阵,在常见的情况下,该矩阵可能太大而不适合存储器。
with_std : boolean, 默认为True
如果为True,则将数据缩放为单位方差(或等效地,单位标准差)。

from sklearn.preprocessing import StandardScaler
sc 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值