scikit-learn 数据处理之特征工程

最新推荐文章于 2024-02-17 17:24:50 发布

中阿

最新推荐文章于 2024-02-17 17:24:50 发布

阅读量115

点赞数

分类专栏：机器学习 python 文章标签：数据预处理 sklearn

本文链接：https://blog.csdn.net/zhonxianchen/article/details/94638094

版权

机器学习同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

python

1 篇文章 0 订阅

订阅专栏

特征工程

1. 数据预处理
2. 特征降维

1. 数据预处理

sklearn.feature_extraction
sklearn.impute
sklearn.preprocessing
pandas

import pandas as pd
# 1. load data
pdata_frame = pd.read_csv("file_path.csv", index_col=0)
print(pdata_frame.info)
# 2. fill na data
col_median = pdata_frame .loc[:, "col1"].median()
pdata_frame .loc[:, "col1"] = pdata_frame .loc[:, "col1"].fillna(col_median )
# 3. fill singular data
cols_median = pdata_frame .loc[:, "col2"].median()
pdata_frame .loc[pdata_frame ["col2"] < 0, "col2"] = cols_median
# 4. delete columns
data = pdata_frame .drop(["col3", "col5"], axis=1)
# 5. scaler
scaler = StandardScaler()
scaler.fit(data)
x_train = scaler.transform(data)