One-hot encoding的不足及改进

本文总结翻译自:https://towardsdatascience.com/stop-one-hot-encoding-your-categorical-variables-bbb0fba89809

 

独热编码的不足:

1. 产生许多的特征;

2. 产生的特征没有带来的更多的信息;

3. 产生的特征反而带来了具有共线性的特征。

 

改进方法:

1. 目标编码(target encoding):

Image for post

使用target值的均值作为category变量的替换值。

代码:

from category_encoders import TargetEncoder
enc = TargetEncoder(cols=['Name_of_col','Another_name'])
training_set = enc.fit_transform(X_train, y_train)

但是这种方法也有缺点:

  • 依赖于y值
  • 对于category的值,全都来自训练集,因此更容易出现overfitting过拟合问题

2. 留一编码(Leave-One-Out encoding):

Image for post

改进了target encoding,使用除了改行target值外的其他同类target来计算。

代码:

from category_encoders import LeaveOneOutEncoder
enc = LeaveOneOutEncoder(cols=['Name_of_col','Another_name'])
training_set = enc.fit_transform(X_train, y_train)

3. 贝叶斯目标编码(Bayesian target encoding):

贝叶斯目标编码在目标编码的算平均值(期望值)的基础上,增加了方差和倾斜(variance/skewness)作为考量,生成贝叶斯模型,再具体给出编码值。

 

4. WoE(Weight of Evidence):

编码公式为:ln (% of non events / % of events)

代码:

from category_encoders import WOEEncoder
enc = WOEEncoder(cols=['Name_of_col','Another_name'])
training_set = enc.fit_transform(X_train, y_train)

 

以上均为监督学习的角度的独热编码,除此之外还有非监督学习的,即没有target或者label的情况下:

5. 非线性PCA(Nonlinear PCA):

大致解释就是:

使常规PCA的性能(解释方差)最大化,来得到该类别的最佳编码值。

非线性PCA的具体解释:

https://towardsdatascience.com/beyond-ordinary-pca-nonlinear-principal-component-analysis-54a93915a702

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值