[自用] 菜菜的sklearn 数据预处理与特征工程 - 数据预处理

最新推荐文章于 2024-08-18 22:32:05 发布

Lennng

最新推荐文章于 2024-08-18 22:32:05 发布

阅读量173

点赞数

分类专栏： sklearn 文章标签： sklearn 机器学习数据挖掘

本文链接：https://blog.csdn.net/weixin_44845052/article/details/129248211

版权

sklearn 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

数据预处理与特征工程 - 数据预处理

数据挖掘的五大流程：

1. 获取数据

2. 数据预处理

从数据中检测，纠正或删除损坏、不准确或不适用于模型的记录的过程

目的：让数据适应模型，匹配模型的需求

3. 特征工程

将原始数据转换为更能代表预测模型的潜在问题的特征的过程，可以通过挑选最相关的特征，提取特征以及创造特征来实现；其中创造特征经常以降维算法的方式实现

目的：降低计算成本，提升模型上限

4. 建模，测试模型并预测出结果

5. 上线，验证模型效果

sklearn中的数据预处理与特征工程

模块：

preprocessing：几乎包含数据预处理所有内容

Impute：填补缺失值专用

feature_selection：包含特征选择的各种方法的实践

2 数据预处理 preprocessing & Impute

2.1 数据无量纲化

我们往往有将不同规格的数据转换到同一规格，或不同分布的数据转换到标准正态分布的需求，这种需求统称为将数据“无量纲化”；

在以梯度和矩阵为核心的算法中，譬如逻辑回归，支持向量机，神经网络，无量纲化可以加快求解速度；

在距离类模型中，譬如k近邻，K-means中，无量纲化可以帮我们提升模型精度，避免某一个取值范围特别大的特征对距离计算造成影响；

数据的无量纲化可以是线性也可以是非线性的；

线性的无量纲化包括中心化（zero-centered or mean-subtraction）处理和缩放处理（scale）；

中心化的本质是让所有记录减去一个固定值，让数据样本平移到某个位置；

缩放的本质是通过除以一个固定值，让数据固定在某个范围之中，取对数也是一种缩放处理

preprocessing.MinMaxScaler

当数据按照最小值中心化后，再按极差（最大值 - 最小值）缩放，数据移动了最小值个单位，并且会被收敛到[0,1]之间，这个过程叫做数据归一化（Normalization or Min-Max Scaling）

在sklearn中，我们用preprocessing.MinMaxScaler来实现这个功能；

preprocessing.MinMaxScaler有一个重要参数：feature_range，控制我们希望把数据压缩到的范围，默认是[0,1]

from sklearn.preprocessing import MinMaxScaler
data = [[-1,2],[-0.5,6],[0,10],[1,18]]

# 使用pandas来实现归一化
import pandas as pd
pd.DataFrame(data)

# 实现归一化
scaler = MinMaxScaler() # 实例化
scaler = scaler.fit(data) # 生成min（x）和max（x）
result = scaler.transform(data) # 通过接口导出结果
result

result_ = scaler.fit_transform(data) # 训练和导出结果一步达成
result_

scaler.inverse_transform(result) # 将归一化后的结果逆转

# 使用MinMaxScaler的参数feature_range实现将数据归一化到[0,1]以外的范围中
data = [[-1,2],[-0.5,6],[0,10],[1,18]]
scaler = MinMaxScaler(feature_range=[5,10])
result = scaler.fit_transform(data)
result

# 当x中的特征数量非常多，fit会报错并表示计算不了
# 此时用partial_fit作为训练接口
scaler = scaler.partial_fit(data)

# 使用numpy来实现归一化
import numpy as np
X = np.array([[-1,2],[-0.5,6],[0,10],[1,18]])

# 归一化
# 归一化实质：（X - 最小值） / 极差（最大值 - 最小值）
X_nor = (X - X.min(axis=0))/(X.max(axis=0) - X.min(axis=0))
X_nor

# 逆转归一化
X_returned = X_nor * (X.max(axis=0) - X.min(axis=0)) + X.min(axis=0)
X_returned

preprocessing.StandardScaler

当数据按均值中心化后，再按标准差缩放，数据就会服从均值为0，方差为1的正态分布，

这个过程就叫做数据标准化（standardization or z-score normalization）

from sklearn.preprocessing import StandardScaler
data = [[-1,2],[-0.5,6],[0,10],[1,18]]

scaler = StandardScaler() # 实例化
scaler = scaler.fit(data) # 本质是生成均值和方差

scaler.mean_ # 查看均值的属性

scaler.var_ # 查看方差的属性

x_std = scaler.transform(data) # 通过接口导出结果

x_std.mean() # 导出的结果是一个数组，用mean()查看均值

x_std.std() # 查看方差

scaler.fit_transform(data) # 训练和导出结果一步达成

scaler.inverse_transform(x_std) # 使用inverse_transform逆转标准化

对于StandardScaler和MinMaxScaler，空值NaN会被当作缺失值，在fit时忽略，在transform会保持缺失NaN的状态显示；fit接口只允许导入至少二维数组，一维数组会报错

StandardScaler和MinMaxScaler选哪个？

在PCA，聚类，逻辑回归，支持向量机，神经网络中，StandardScaler更好；

MinMaxScaler对异常值敏感，在不涉及距离度量、梯度、协方差计算以及数据需要被压缩到特定区间时使用广泛；

可以先试试StandardScaler，不好再MinMaxScaler；

还有其他选择：

希望压缩数据，却不影响数据的稀疏性时，使用MaxAbsScaler；

在异常值多，噪声大时，选择用分位数来无量纲化，使用RobustScaler

2.2 缺失值

impute.SimpleImputer

包括四个重要参数：

参数	含义 & 输入
missing_values	数据中的缺失值长什么样，默认空值np.nan
strategy	填补缺失值的策略，默认均值 ‘mean’用均值填补（仅对数值型特征） ‘median’用中值填补（仅对数值型特征） ‘most_frequent’用众数填补（数值型，字符型可用） ‘constant’参考‘fill_value’中的值（数值型，字符型可用）
fill_value	strategy为‘constant’可用，常用0
copy	默认为True，创建特征矩阵的副本

1. 用sklearn处理缺失值

所用的数据集为kaggle官网的titanic数据集只剩下age,sex,embarked和survived的部分

import pandas as pd
data = pd.read_csv("C:\\Users\\Leng3\\jupyter_notebook_code\\datasets\\titanic\\ctrain.csv")
data.head()

data.info()

Age = data.loc[:,'Age'].values.reshape(-1,1) # sklearn当中特征矩阵必须是二维

from sklearn.impute import SimpleImputer
imp_mean = SimpleImputer() # 实例化，默认均值填补
imp_median = SimpleImputer(strategy='median') # 用中位数填补
imp_0 = SimpleImputer(strategy='constant',fill_value=0) # 用0填补

imp_mean = imp_mean.fit_transform(Age)
imp_median = imp_median.fit_transform(Age)
imp_0 = imp_0.fit_transform(Age)

imp_mean[:20]

imp_median[:20]

imp_0[:20]

# 使用中位数填补Age
data.loc[:,'Age'] = imp_median
data.info()

# 使用众数填补Embarked
Embarked = data.loc[:,'Embarked'].values.reshape(-1,1)
imp_mode = SimpleImputer(strategy = 'most_frequent')
data.loc[:,'Embarked'] = imp_mode.fit_transform(Embarked)
data.info()

2. 用pandas和numpy填补更简单

# 用pandas和numpy进行填补更简单
import pandas as pd
data_ = pd.read_csv("C:\\Users\\Leng3\\jupyter_notebook_code\\datasets\\titanic\\ctrain.csv")
data_.head()

data_.loc[:,'Age'] = data_.loc[:,'Age'].fillna(data_.loc[:,'Age'].median())

# .dropna(axis=0)删除所有有缺失值的行，.dropna(axis=1)删除所有有缺失值的列
# inplace True为再原数据集上修改，False表示生成一个复制对象
data_.dropna(axis=0,inplace=True)

data_.info()

2.3 处理分类型特征：编码与哑变量

在sklearn中，许多算法都需要输入数值型数据；

我们必须将数据进行编码，将文字型数据转换为数值型

preprocessing.LabelEncoder：标签专用，能将分类转换为分类数值

import pandas as pd
data = pd.read_csv("C:\\Users\\Leng3\\jupyter_notebook_code\\datasets\\titanic\\ctrain.csv")

from sklearn.preprocessing import LabelEncoder
y = data.iloc[:,-1] # 要输入的是标签，不是特征矩阵，所以允许一维

le = LabelEncoder() # 实例化
le = le.fit(y) # 导入数据
label = le.transform(y) # 接口调取结果

label

le.classes_ # 属性.classes 查看标签中究竟有多少类别

le.fit_transform(y) # 也可以用fit_transform一步到位

le.inverse_transform(label) # 也可以使用inverse_transform逆转

data.iloc[:,-1] = label # 让标签等于我们运行出来的结果

data.head()


# 更凝练的写法
from sklearn.preprocessing import LabelEncoder
import pandas as pd
data = pd.read_csv("C:\\Users\\Leng3\\jupyter_notebook_code\\datasets\\titanic\\ctrain.csv")
data.iloc[:,-1] = LabelEncoder().fit_transform(data.iloc[:,-1])

preprocessing.OrdinalEncoder：特征专用，能够将分类特征转换为分类数值

from sklearn.preprocessing import OrdinalEncoder

# 接口categories_ 对应LabelEncoder的接口classes_
data_ = data.copy()
data_.head()

OrdinalEncoder().fit(data_.iloc[:,1:-1]).categories_

data_.iloc[:,1:-1] = OrdinalEncoder().fit_transform(data_.iloc[:,1:-1])
data_.head()

preprocessing.OneHotEncoder：独热编码，创建哑变量

让算法彻底领悟，特征的多个取值是没有可计算性质的，是有你就没我的不等概念

像性别和舱门，都是这样的名义变量

我们需要使用独热编码，将两个特征都转换为哑变量

data.head()

from sklearn.preprocessing import OneHotEncoder
X = data.iloc[:,1:-1]

enc = OneHotEncoder(categories='auto').fit(X)
result = enc.transform(X).toarray()
result

# 依然可以一步到位
OneHotEncoder(categories='auto').fit_transform(X).toarray()

# 依然可以还原
enc.inverse_transform(result)

enc.get_feature_names()

result

# axis=1，表示跨行进行合并，将量表左右相连；axis=0，将量表上下相连
newdata = pd.concat([data,pd.DataFrame(result)],axis=1)
newdata.head()

newdata.drop(['Sex','Embarked'],axis=1,inplace=True)
newdata.columns = ['Age','Survived','Female','Male','EmbarkedC','EmbarkedQ','EmbarkedS','nan']
newdata.head()

newdata.drop(['nan'],axis=1,inplace=True)

newdata.head()

2.4 处理连续性特征：二值化与分箱

preprocessing.Binarizer

根据阈值将数据二值化（特征值设置为0或1），用于处理连续型变量；

大于阈值的值映射为1，小于阈值的值映射为0；

默认阈值为0时，特征中的所有正值都映射到1；

二值化是对文本计数数据的常见操作

from sklearn.preprocessing import Binarizer
X = data_.iloc[:,0].values.reshape(-1,1) # 类为特征专用，所以不能使用一维数组
transformer = Binarizer(threshold=38).fit_transform(X)
data_.iloc[:,0] = transformer

data_.head()

preprocessing.KBinsDiscretizer

将连续型变量划分为分类变量的类，能够将连续型变量排序后按顺序分箱后编码；

参数	含义 & 输入
n_bins	每个特征中分箱的个数，默认5，一次会被运用到所有导入的特征
encode	默认‘onehot’ ‘onehot’：哑变量，返回一个稀疏矩阵，每一列是一个特征中的一个类别，含有该类别的样本表示为1，不含的表示为0 ‘ordinal’：每个特征的每个箱都被编码为一个正式，返回每一列是一个特征，每个特征下含有不同整数编码的箱的矩阵 ‘onehot-dense’：哑变量，之后返回一个密集数组
strategy	定义箱宽，默认‘quantile’ ‘uniform’：等宽分箱，每个特征中的每个箱的最大值之间的差为 (特征.max()-特征min())/(n_bins) 'quantile'：等位分箱，即每个特征中的每个箱内的样本数量都相同 'kmeans'：按聚类分箱，每个箱中的值到最近的一维k均值聚类的簇心的距离都相同

from sklearn.preprocessing import KBinsDiscretizer
X = data_.iloc[:,0].values.reshape(-1,1)

est = KBinsDiscretizer(n_bins=3,encode='ordinal',strategy='uniform')
est.fit_transform(X)
# 查看转换后分的箱：变成了一列中的三箱
# set集合去掉重复值
set(est.fit_transform(X).ravel())

est = KBinsDiscretizer(n_bins=3,encode='onehot',strategy='uniform')
# 查看转换后分的箱：变成了哑变量
est.fit_transform(X).toarray()