Pipeline数据预处理

最新推荐文章于 2024-06-26 13:49:44 发布

Liby2000

最新推荐文章于 2024-06-26 13:49:44 发布

阅读量782

点赞数 1

文章标签： python 大数据机器学习封装

本文链接：https://blog.csdn.net/weixin_43907757/article/details/115494815

版权

ColumnTransformer 是数据处理Pipeline中的常用方法。正如其名，中心思想是依据其列名处理数据。

例如我们有两种数据。数据类型为numerical，字符串。预处理这些数据(Impute, One-Hot)步骤繁琐。如何封装以简便处理呢？

不使用Pipeline:

将字符串类特征执行OneHotEncoder.fit_transform()
将执行后的表赋予行index. OH_cols_train.index = X_train.index
将总表去掉字符串类特征作为numerical特征
将两特征表沿y轴相连

使用Pipeline:

对str, numerical类分别定义处理方法（SimpleImputer, OneHotEncoder）
my_pipeline.fit(X)

from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
numerical_transformer = SimpleImputer(strategy='constant')

# Preprocessing for categorical data
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Bundle preprocessing for numerical and categorical data
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_transformer, numerical_cols),
        ('cat', categorical_transformer, categorical_cols)
    ])

ColumnTransformer的主要参数transformer为：a list consist of tuple.
该list包含了如何处理数据的tuple。
一个tuple有三种参数。
分别为：该处理的名字，处理方法，处理对象。
处理对象为列的索引，而处理的目标为这些列下的数据。
preprocessor已封装完成，我们还可以进一步封装加入model功能。


from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor(n_estimators=100, random_state=0)

my_pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                              ('model', model)
                             ])

# Preprocessing of training data, fit model 
my_pipeline.fit(X_train, y_train)

# Preprocessing of validation data, get predictions
preds = my_pipeline.predict(X_valid)

至此，my_pipepline已经有了预处理(numerical+One-Hot)，model功能。

Liby2000

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Pipeline数据预处理

ColumnTransformerColumnTransformer 是数据处理Pipeline中的常用方法。正如其名，中心思想是依据其列名处理数据。例如我们有两种数据。数据类型为numerical，字符串。预处理这些数据(Impute, One-Hot)步骤繁琐。如何封装以简便处理呢？from sklearn.compose import ColumnTransformerfrom sklearn.pipeline import Pipelinefrom sklearn.impute impor
复制链接

扫一扫