[自用] 菜菜的sklearn 数据预处理与特征工程 - 数据预处理

数据预处理与特征工程 - 数据预处理

数据挖掘的五大流程:

1. 获取数据

2. 数据预处理

        从数据中检测,纠正或删除损坏、不准确或不适用于模型的记录的过程

        目的:让数据适应模型,匹配模型的需求

3. 特征工程

        将原始数据转换为更能代表预测模型的潜在问题的特征的过程,可以通过挑选最相关的特征,提取特征以及创造特征来实现;其中创造特征经常以降维算法的方式实现

        目的:降低计算成本,提升模型上限

4. 建模,测试模型并预测出结果

5. 上线,验证模型效果

sklearn中的数据预处理与特征工程

模块:

        preprocessing:几乎包含数据预处理所有内容

        Impute:填补缺失值专用

        feature_selection:包含特征选择的各种方法的实践 

2 数据预处理 preprocessing & Impute

2.1 数据无量纲化

我们往往有将不同规格的数据转换到同一规格,或不同分布的数据转换到标准正态分布的需求,这种需求统称为将数据“无量纲化”;

在以梯度和矩阵为核心的算法中,譬如逻辑回归,支持向量机,神经网络,无量纲化可以加快求解速度;

在距离类模型中,譬如k近邻,K-means中,无量纲化可以帮我们提升模型精度,避免某一个取值范围特别大的特征对距离计算造成影响;

数据的无量纲化可以是线性也可以是非线性的;

线性的无量纲化包括中心化(zero-centered or mean-subtraction)处理和缩放处理(scale);

中心化的本质是让所有记录减去一个固定值,让数据样本平移到某个位置;

缩放的本质是通过除以一个固定值,让数据固定在某个范围之中,取对数也是一种缩放处理

preprocessing.MinMaxScaler

当数据按照最小值中心化后,再按极差(最大值 - 最小值)缩放,数据移动了最小值个单位,并且会被收敛到[0,1]之间,这个过程叫做数据归一化(Normalization or Min-Max Scaling)

在sklearn中,我们用preprocessing.MinMaxScaler来实现这个功能;

preprocessing.MinMaxScaler有一个重要参数:feature_range,控制我们希望把数据压缩到的范围,默认是[0,1]

from sklearn.preprocessing import MinMaxScaler
data = [[-1,2],[-0.5,6],[0,10],[1,18]]

# 使用pandas来实现归一化
import pandas as pd
pd.DataFrame(data)

# 实现归一化
scaler = MinMaxScaler() # 实例化
scaler = scaler.fit(data) # 生成min(x)和max(x)
result = scaler.transform(data) # 通过接口导出结果
result

result_ = scaler.fit_transform(data) # 训练和导出结果一步达成
result_

scaler.inverse_transform(result) # 将归一化后的结果逆转

# 使用MinMaxScaler的参数feature_range实现将数据归一化到[0,1]以外的范围中
data = [[-1,2],[-0.5,6],[0,10],[1,18]]
scaler = MinMaxScaler(feature_range=[5,10])
result = scaler.fit_transform(data)
result

# 当x中的特征数量非常多,fit会报错并表示计算不了
# 此时用partial_fit作为训练接口
scaler = scaler.partial_fit(data)
# 使用numpy来实现归一化
import numpy as np
X = np.array([[-1,2],[-0.5,6],[0,10],[1,18]])

# 归一化
# 归一化实质:(X - 最小值) / 极差(最大值 - 最小值)
X_nor = (X - X.min(axis=0))/(X.max(axis=0) - X.min(axis=0))
X_nor

# 逆转归一化
X_returned = X_nor * (X.max(axis=0) - X.min(axis=0)) + X.min(axis=0)
X_returned

preprocessing.StandardScaler

当数据按均值中心化后,再按标准差缩放,数据就会服从均值为0,方差为1的正态分布,

这个过程就叫做数据标准化(standardization or z-score normalization)

from sklearn.preprocessing import StandardScaler
data = [[-1,2],[-0.5,6],[0,10],[1,18]]

scaler = StandardScaler() # 实例化
scaler = scaler.fit(data) # 本质是生成均值和方差

scaler.mean_ # 查看均值的属性

scaler.var_ # 查看方差的属性

x_std = scaler.transform(data) # 通过接口导出结果

x_std.mean() # 导出的结果是一个数组,用mean()查看均值

x_std.std() # 查看方差

scaler.fit_transform(data) # 训练和导出结果一步达成

scaler.inverse_transform(x_std) # 使用inverse_transform逆转标准化

对于StandardScalerMinMaxScaler,空值NaN会被当作缺失值,在fit时忽略,在transform会保持缺失NaN的状态显示;fit接口只允许导入至少二维数组,一维数组会报错

StandardScalerMinMaxScaler选哪个?

在PCA,聚类,逻辑回归,支持向量机,神经网络中,StandardScaler更好;

MinMaxScaler对异常值敏感,在不涉及距离度量、梯度、协方差计算以及数据需要被压缩到特定区间时使用广泛;

可以先试试StandardScaler,不好再MinMaxScaler;

还有其他选择:

希望压缩数据,却不影响数据的稀疏性时,使用MaxAbsScaler;

在异常值多,噪声大时,选择用分位数来无量纲化,使用RobustScaler

2.2 缺失值

impute.SimpleImputer

包括四个重要参数:

参数含义 & 输入
missing_values数据中的缺失值长什么样,默认空值np.nan
strategy

填补缺失值的策略,默认均值

‘mean’用均值填补(仅对数值型特征)

‘median’用中值填补(仅对数值型特征)

‘most_frequent’用众数填补(数值型,字符型可用)

‘constant’参考‘fill_value’中的值(数值型,字符型可用)

fill_valuestrategy为‘constant’可用,常用0
copy默认为True,创建特征矩阵的副本

1. 用sklearn处理缺失值

所用的数据集为kaggle官网的titanic数据集只剩下age,sex,embarked和survived的部分

import pandas as pd
data = pd.read_csv("C:\\Users\\Leng3\\jupyter_notebook_code\\datasets\\titanic\\ctrain.csv")
data.head()

data.info()

Age = data.loc[:,'Age'].values.reshape(-1,1) # sklearn当中特征矩阵必须是二维

from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer() # 实例化,默认均值填补
imp_median = SimpleImputer(strategy='median') # 用中位数填补
imp_0 = SimpleImputer(strategy='constant',fill_value=0) # 用0填补

imp_mean = imp_mean.fit_transform(Age)
imp_median = imp_median.fit_transform(Age)
imp_0 = imp_0.fit_transform(Age)

imp_mean[:20]

imp_median[:20]

imp_0[:20]

# 使用中位数填补Age
data.loc[:,'Age'] = imp_median
data.info()

# 使用众数填补Embarked
Embarked = data.loc[:,'Embarked'].values.reshape(-1,1)
imp_mode = SimpleImputer(strategy = 'most_frequent')
data.loc[:,'Embarked'] = imp_mode.fit_transform(Embarked)
data.info()

2. 用pandas和numpy填补更简单

# 用pandas和numpy进行填补更简单
import pandas as pd
data_ = pd.read_csv("C:\\Users\\Leng3\\jupyter_notebook_code\\datasets\\titanic\\ctrain.csv")
data_.head()

data_.loc[:,'Age'] = data_.loc[:,'Age'].fillna(data_.loc[:,'Age'].median())

# .dropna(axis=0)删除所有有缺失值的行,.dropna(axis=1)删除所有有缺失值的列
# inplace True为再原数据集上修改,False表示生成一个复制对象
data_.dropna(axis=0,inplace=True)

data_.info()

2.3 处理分类型特征:编码与哑变量

在sklearn中,许多算法都需要输入数值型数据;

我们必须将数据进行编码将文字型数据转换为数值型

preprocessing.LabelEncoder:标签专用,能将分类转换为分类数值

import pandas as pd
data = pd.read_csv("C:\\Users\\Leng3\\jupyter_notebook_code\\datasets\\titanic\\ctrain.csv")

from sklearn.preprocessing import LabelEncoder
y = data.iloc[:,-1] # 要输入的是标签,不是特征矩阵,所以允许一维

le = LabelEncoder() # 实例化
le = le.fit(y) # 导入数据
label = le.transform(y) # 接口调取结果

label

le.classes_ # 属性.classes 查看标签中究竟有多少类别

le.fit_transform(y) # 也可以用fit_transform一步到位

le.inverse_transform(label) # 也可以使用inverse_transform逆转

data.iloc[:,-1] = label # 让标签等于我们运行出来的结果

data.head()


# 更凝练的写法
from sklearn.preprocessing import LabelEncoder
import pandas as pd
data = pd.read_csv("C:\\Users\\Leng3\\jupyter_notebook_code\\datasets\\titanic\\ctrain.csv")
data.iloc[:,-1] = LabelEncoder().fit_transform(data.iloc[:,-1])

preprocessing.OrdinalEncoder:特征专用,能够将分类特征转换为分类数值

from sklearn.preprocessing import OrdinalEncoder

# 接口categories_ 对应LabelEncoder的接口classes_
data_ = data.copy()
data_.head()

OrdinalEncoder().fit(data_.iloc[:,1:-1]).categories_

data_.iloc[:,1:-1] = OrdinalEncoder().fit_transform(data_.iloc[:,1:-1])
data_.head()

preprocessing.OneHotEncoder:独热编码,创建哑变量

让算法彻底领悟,特征的多个取值是没有可计算性质的,是有你就没我的不等概念

像性别和舱门,都是这样的名义变量

我们需要使用独热编码,将两个特征都转换为哑变量

data.head()

from sklearn.preprocessing import OneHotEncoder
X = data.iloc[:,1:-1]

enc = OneHotEncoder(categories='auto').fit(X)
result = enc.transform(X).toarray()
result

# 依然可以一步到位
OneHotEncoder(categories='auto').fit_transform(X).toarray()

# 依然可以还原
enc.inverse_transform(result)

enc.get_feature_names()

result

# axis=1,表示跨行进行合并,将量表左右相连;axis=0,将量表上下相连
newdata = pd.concat([data,pd.DataFrame(result)],axis=1)
newdata.head()

newdata.drop(['Sex','Embarked'],axis=1,inplace=True)
newdata.columns = ['Age','Survived','Female','Male','EmbarkedC','EmbarkedQ','EmbarkedS','nan']
newdata.head()

newdata.drop(['nan'],axis=1,inplace=True)

newdata.head()

2.4 处理连续性特征:二值化与分箱

preprocessing.Binarizer

根据阈值将数据二值化(特征值设置为0或1),用于处理连续型变量;

大于阈值的值映射为1,小于阈值的值映射为0;

默认阈值为0时,特征中的所有正值都映射到1;

二值化是对文本计数数据的常见操作

from sklearn.preprocessing import Binarizer
X = data_.iloc[:,0].values.reshape(-1,1) # 类为特征专用,所以不能使用一维数组
transformer = Binarizer(threshold=38).fit_transform(X)
data_.iloc[:,0] = transformer

data_.head()

preprocessing.KBinsDiscretizer

将连续型变量划分为分类变量的类,能够将连续型变量排序后按顺序分箱后编码;

参数含义 & 输入
n_bins每个特征中分箱的个数,默认5,一次会被运用到所有导入的特征
encode

默认‘onehot’

‘onehot’:哑变量,返回一个稀疏矩阵,每一列是一个特征中的一个类别,含有该类别的样本表示为1,不含的表示为0

‘ordinal’:每个特征的每个箱都被编码为一个正式,返回每一列是一个特征,每个特征下含有不同整数编码的箱的矩阵

‘onehot-dense’:哑变量,之后返回一个密集数组

strategy

定义箱宽,默认‘quantile’

‘uniform’:等宽分箱,每个特征中的每个箱的最大值之间的差为

(特征.max()-特征min())/(n_bins)

'quantile':等位分箱,即每个特征中的每个箱内的样本数量都相同

'kmeans':按聚类分箱,每个箱中的值到最近的一维k均值聚类的簇心的距离都相同

from sklearn.preprocessing import KBinsDiscretizer
X = data_.iloc[:,0].values.reshape(-1,1)

est = KBinsDiscretizer(n_bins=3,encode='ordinal',strategy='uniform')
est.fit_transform(X)
# 查看转换后分的箱:变成了一列中的三箱
# set集合去掉重复值
set(est.fit_transform(X).ravel())

est = KBinsDiscretizer(n_bins=3,encode='onehot',strategy='uniform')
# 查看转换后分的箱:变成了哑变量
est.fit_transform(X).toarray()

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值