数据预处理分为三个步骤:
1、数据的准备
2、数据的转换
3、数据的输出
数据转换方法
1、调整数据尺度
2、 正态化数据
3、标准化数据
4、 二值数据
调整数据尺度
#调整数据尺度
#将不同计量单位的数据统一成相同的尺度,利于对事物的分类或分组
from pandas import read_csv
from numpy import set_printoptions
from sklearn.preprocessing import MinMaxScaler
#导入数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename,names=names)
#将数据分割为输入数据和输出结果
array = data.values
X = array[:,0:8]
y = array[:,8]
transformer = MinMaxScaler(feature_range=(0,1))
#数据转换
#fit()函数准备数据转换的参数,transform()函数对数据预处理
#fit_transform(X)实现fit和transform功能
newX = transformer.fit_transform(X)
#设定数据的打印格式
set_printoptions(precision=3)
print(newX)
正态化数据
#正态化数据,有效处理符合高斯分布的数据手段,输出结果以0为均值,方差为1
from sklearn.preprocessing import StandardScaler
transformer = StandardScaler().fit(X)
#数据转换
newX = transformer.transform(X)
二值数据
#二值数据:将数据转化为二值,大于阈值设置为1,小于阈值设置为0
#使用Binarizer类实现
from sklearn.preprocessing import Binarizer
transformer = Binarizer(threshold=0.5).fit(X)
#数据转换
newX = transformer.transform(X)