One-hot encoding的不足及改进

最新推荐文章于 2024-09-03 07:52:13 发布

一枚达达

最新推荐文章于 2024-09-03 07:52:13 发布

阅读量1.8k

点赞数

文章标签：机器学习

原文链接：https://towardsdatascience.com/stop-one-hot-encoding-your-categorical-variables-bbb0fba89809

版权

本文总结翻译自：https://towardsdatascience.com/stop-one-hot-encoding-your-categorical-variables-bbb0fba89809

独热编码的不足：

1. 产生许多的特征；

2. 产生的特征没有带来的更多的信息；

3. 产生的特征反而带来了具有共线性的特征。

改进方法：

1. 目标编码（target encoding）：

Image for post

使用target值的均值作为category变量的替换值。

代码：

from category_encoders import TargetEncoder
enc = TargetEncoder(cols=['Name_of_col','Another_name'])
training_set = enc.fit_transform(X_train, y_train)

但是这种方法也有缺点：

依赖于y值
对于category的值，全都来自训练集，因此更容易出现overfitting过拟合问题

2. 留一编码（Leave-One-Out encoding）：

Image for post

改进了target encoding，使用除了改行target值外的其他同类target来计算。

代码：

from category_encoders import LeaveOneOutEncoder
enc = LeaveOneOutEncoder(cols=['Name_of_col','Another_name'])
training_set = enc.fit_transform(X_train, y_train)

3. 贝叶斯目标编码（Bayesian target encoding）：

贝叶斯目标编码在目标编码的算平均值（期望值）的基础上，增加了方差和倾斜（variance/skewness）作为考量，生成贝叶斯模型，再具体给出编码值。

4. WoE（Weight of Evidence）：

编码公式为：ln (% of non events / % of events)

代码：

from category_encoders import WOEEncoder
enc = WOEEncoder(cols=['Name_of_col','Another_name'])
training_set = enc.fit_transform(X_train, y_train)

以上均为监督学习的角度的独热编码，除此之外还有非监督学习的，即没有target或者label的情况下：

5. 非线性PCA（Nonlinear PCA）：

大致解释就是：

使常规PCA的性能（解释方差）最大化，来得到该类别的最佳编码值。

非线性PCA的具体解释：

https://towardsdatascience.com/beyond-ordinary-pca-nonlinear-principal-component-analysis-54a93915a702