python sklearn机械学习-数据预处理-CSDN博客

本文链接：https://blog.csdn.net/zwq_zwq_zwq111/article/details/140080717

🌈所属专栏：【机械学习】
✨作者主页： Mr.Zwq
✔️个人简介：一个正在努力学技术的Python领域创作者，擅长爬虫，逆向，全栈方向，专注基础和实战分享，欢迎咨询！

您的点赞、关注、收藏、评论，是对我最大的激励和支持！！！🤩🥰😍

安装

pip install scikit-learn

数据

X,y即为所需要进行回归处理的数据。

操作：拆分为训练集和测试集

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3, random_state=12)

缺失值处理

# 缺失值处理
from sklearn.impute import SimpleImputer

# 创建SimpleImputer对象，使用均值填充缺失值
imputer = SimpleImputer(strategy='mean')

# 对数据集进行拟合和转换
X_train = imputer.fit_transform(X_train)
X_test = imputer.transform(X_test)

数据标准化

# 数据标准化
#fit(), 用来求得训练集X的均值，方差，最大值，最小值，这些训练集x固有的属性。
#transform()，在fit的基础上，进行标准化，降维，归一化等操作。
#fit_transform(),包含上述两个功能。

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

对文本数据进行数字编码

# 对某列进行编码
from sklearn.preprocessing import LabelEncoder

# 创建LabelEncoder对象
encoder = LabelEncoder()

# data数据自行提供
data['朝向编码'] = encoder.fit_transform(data['朝向'])

处理后效果如下：