目录
一、特征预处理
特征工程目的:把数据转换成机器更容易识别的数据
特征的单位或大小相差较大,或某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征,故需要进行归一化或者标准化处理。
1.归一化
通过对原始数据进行变换把数据映射到(默认为[0,1])之间
公式如下:
作用于每一列,max为一列的最大值,min为一列的最小值,那么 X'' 为最终结果,mx,mi分别为指定区间值默认mx为1,mi为0
数据归一化API:
1.sklearn.preprocessing.MinMaxScaler(feature_range=(0,1)… )feature_range缩放区间2.fit_transform(X)将特征进行归一化缩放
2.标准化
通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内的数据
公式如下:
mean为平均值,σ为标准差
数据标准化API:
1.sklearn.preprocessing. StandardScaler()
2.fit_transform(X)将特征进行归一化缩放
二、鸢尾花识别案例
实现流程:1.获取数据集 2.数据基本处理 3.数据集预处理-数据标准化 4.机器学习(模型训练) 5.模型评估 6.模型预测
下面的代码是直接一步到位的
运行结果:
后面还有好几种结果,这里我就给大家列出三种,剩下的大家可以试着写写代码然后运行看看。