一、特征处理
特征处理是通过特定的统计方法,将数据转化成算法要求的数据。其API为sklearn.preprocessing。先来看一组数据:
第一组中的特征1 相比于特征2而言大了几十倍,在正常处理时这些点即可视为异常点,影响统计结果分析。采用特征处理后转变为右侧的数据,可以更加方便的处理而不会产生异常值。
常见的处理方法如下:
数据类型 | 处理方法 |
---|---|
数值型数据 | 归一化、标准化、缺失值 |
类别型数据 | one hot编码 |
时间型数据 | 时间的切分 |
( 一)归一化
归一化是通过对原始数据进行变换把数据映射到一定范围(默认0-1)之间。其公式为:
归一化实例:
# 导入特征处理api及其子库
from sklearn.preprocessing import MinMaxScaler,StandardScaler,Imputer
# 定义一个归一化处理函数
def mm(data):
"""归一化处理"""
# 实例化mm
mm=MinMaxScaler(feature_range=(2,3))
# 调用fit_transform来处理数据
data=mm.fit_transform(data)
print("归一化处理后的数据为:")
print(data)
return None
data=[[90, 2, 10, 40], [60, 4, 15, 45