一、数值特征处理
1.方法
常见的数值特征处理方式:标准化,有很多种方法网上很多,可以自己去查,常见的有极差标准化法、Z-score标准化法等
2.目的
经过标准化处理的数值特征,在模型训练时能够更快地收敛最佳值,加快模型的训练速度
二、字符型特征处理(最常见问题)
1.原因
对于字符型的特征,我们并不能将其直接传输网络模型中进行训练,需要对其进行编码成数值
2.方法
常用两种编码方式:
- 分类编码:当分类变量的取值之间有大小意义是,如【小学、初中、大学】,可以使用分类编码,将其编码为【0,1,2】
- 独热编码:当分类变量之间没有大小意义是,如【蓝色、黄色、红色】,则使用独热编码
参考:https://blog.csdn.net/weixin_42189966/article/details/106781753
3.实现
分类编码
1)标签的分类编码
from sklearn.preprocessing import LabelEncoder
#一步到位的写法
data.loc[:,-1] = LabelEncoder().fit_transform(data.loc[:,-1])
# 分部写法
y = data.iloc[:,-1]
le = LabelEncoder()
le = le.fit(y)
label = le.transform(y)
#查看标签中共有多少类别