pandas 线性回归特征预处理常见问题总结

最新推荐文章于 2023-05-30 17:39:11 发布

ZenSheep

最新推荐文章于 2023-05-30 17:39:11 发布

阅读量1.6k

点赞数

分类专栏： Python 文章标签：线性回归机器学习 python

本文链接：https://blog.csdn.net/yangzhenyu2/article/details/123578164

版权

一、数值特征处理

1.方法

常见的数值特征处理方式：标准化，有很多种方法网上很多，可以自己去查，常见的有极差标准化法、Z-score标准化法等

2.目的

经过标准化处理的数值特征，在模型训练时能够更快地收敛最佳值，加快模型的训练速度

二、字符型特征处理（最常见问题）

1.原因

对于字符型的特征，我们并不能将其直接传输网络模型中进行训练，需要对其进行编码成数值

2.方法

常用两种编码方式：

分类编码：当分类变量的取值之间有大小意义是，如【小学、初中、大学】，可以使用分类编码，将其编码为【0,1，2】
独热编码：当分类变量之间没有大小意义是，如【蓝色、黄色、红色】，则使用独热编码
参考：https://blog.csdn.net/weixin_42189966/article/details/106781753

3.实现

分类编码

1）标签的分类编码

from sklearn.preprocessing import LabelEncoder
#一步到位的写法
data.loc[:,-1] = LabelEncoder().fit_transform(data.loc[:,-1]) 

# 分部写法
y = data.iloc[:,-1]
le = LabelEncoder()
le = le.fit(y)
label = le.transform(y)
#查看标签中共有多少类别

最低0.47元/天解锁文章

ZenSheep

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
pandas 线性回归特征预处理常见问题总结

一、数值特征处理1.方法常见的数值特征处理方式：标准化，有很多种方法网上很多，可以自己去查，常见的有极差标准化法、Z-score标准化法等2.目的经过标准化处理的数值特征，在模型训练时能够更快地收敛最佳值，加快模型的训练速度二、字符型特征处理（最常见问题）1.原因对于字符型的特征，我们并不能将其直接传输网络模型中进行训练，需要对其进行编码成数值2.方法常用两种编码方式：分类编码：当分类变量的取值之间有大小意义是，如【小学、初中、大学】，可以使用分类编码，将其编码为【0,1，2】独热编
复制链接

扫一扫