数据预处理 sklearn 或者别的库

本文介绍了数据预处理的几个关键步骤,包括使用sklearn库进行无量纲化(如MinMaxScaler、StandardScaler、MaxAbsScaler)、缺失值处理(如替换特殊值或用pd.dropna()、pd.fillna())以及分类数据的编码和连续数据的二值化分箱操作。
摘要由CSDN通过智能技术生成

无量纲化

sklearn.preprocessing.MinMaxScaler
数据归一化
(数据-最小值)/极差 把数据限制在0-1之间 范围可以改 feature_range

from sklearn.preprocessing import MinMaxScaler

data = [[-10,16],[-5,32],[0,48],[5,64]]

scaler = MinMaxScaler(feature_range = [0,2])
scaler = scaler.fit(data)
#scaler = scaler.partial_fit(data)

#进行数据归一化
result = scaler.transform(data)

#利用归一化结果还原原数据
origin = scaler.inverse_transform(result)

#一步
result2 = scaler.fit_transform(data)

sklearn.preprocessing.StandardScaler
数据标准化
中心化后 x-均值(均值为零)/标准差
之后满足均值0方差1 的正态分布

from sklearn.preprocessing import StandardScaler

data = [[-10,16],[-5,32],[0,48],[5,64]]

scaler = StandardScaler()
scaler.fit(data)

#mean_均值, var_方差
print(scaler.mean_, scaler.var_)

result = scaler.transform(data)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值