1.数据挖掘的五大流程
获取数据 | |
数据预处理 | 数据类型不同;数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不易,有重复,数据量过大或过小 |
特征工程 | 特征过多过小,特征之间的相关性,特征与标签之间相关性,目的使降低运算成本,提升模型上限 |
建模 | 测试模型并预测结果 |
上线 | 验证模型效果 |
2.数据预处理
2.1数据的无量纲化
中心化 | 平移到某一区间,减法 |
缩放处理 | 缩放到某一区间,取对数或除法 |
2.1.1
processing.MinMaxScaler将数据缩放到【0,1】
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
result = scaler.fit_transform(data)
result = scaler.reverse_transform(result)
同样可以使用numpy来实现这一过程
import numpy as np
x = np.array([[1,4],[-1,2],[4,2],[5,3]])
x_nor = (x-x.min(axis=0))/(x.max(axis=0)-x.min(axis=0))
x_nor
x_returned = x_nor*(x.max(axis=0)-x.min(axis=0))+x.min(axis=0)
x_returned
2.1.2
preprocessing.StandardScaler 数据的标准化即正态分布
from sklearn,p