数据预处理

 

数据预处理分为三个步骤:

1、数据的准备

2、数据的转换

3、数据的输出

数据转换方法

1、调整数据尺度

2、 正态化数据

3、标准化数据

4、 二值数据

调整数据尺度

#调整数据尺度

#将不同计量单位的数据统一成相同的尺度,利于对事物的分类或分组

from pandas import read_csv

from numpy import set_printoptions

from sklearn.preprocessing import MinMaxScaler

 #导入数据

filename = 'pima_data.csv'

names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']

data = read_csv(filename,names=names)

 #将数据分割为输入数据和输出结果

array = data.values

X = array[:,0:8]

y = array[:,8]

transformer = MinMaxScaler(feature_range=(0,1))

#数据转换

#fit()函数准备数据转换的参数,transform()函数对数据预处理

#fit_transform(X)实现fit和transform功能

newX = transformer.fit_transform(X) 

#设定数据的打印格式

set_printoptions(precision=3)

print(newX)

 正态化数据

#正态化数据,有效处理符合高斯分布的数据手段,输出结果以0为均值,方差为1

from sklearn.preprocessing import StandardScaler

transformer = StandardScaler().fit(X)

#数据转换

newX = transformer.transform(X)

 二值数据

#二值数据:将数据转化为二值,大于阈值设置为1,小于阈值设置为0

#使用Binarizer类实现

from sklearn.preprocessing import Binarizer

 

transformer = Binarizer(threshold=0.5).fit(X)

#数据转换

newX = transformer.transform(X)

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值