高基数类别特征预处理：平均数编码（目标编码）

Nobody cares.

于 2024-01-08 10:40:07 发布

阅读量856

点赞数 9

文章标签：机器学习 sklearn 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_62466612/article/details/135451438

版权

高基数类别特征预处理：平均数编码

参考：高基数类别特征预处理：平均数编码

1、引言

对于一个类别特征，如果这个特征的取值非常多，则称它为高基数（high-cardinality）类别特征。在深度学习场景中，对于类别特征我们一般采用Embedding的方式，通过预训练或直接训练的方式将类别特征值编码成向量。在经典机器学习场景中，对于有序类别特征，我们可以使用LabelEncoder进行编码处理，对于低基数无序类别特征（在lightgbm中，默认取值个数小于等于4的类别特征），可以采用OneHotEncoder的方式进行编码，但是对于高基数无序类别特征，若直接采用OneHotEncoder的方式编码，在目前效果比较好的GBDT、Xgboost、lightgbm等树模型中，会出现特征稀疏性的问题，造成维度灾难，若先对类别取值进行聚类分组，然后再进行OneHot编码，虽然可以降低特征的维度，但是聚类分组过程需要借助较强的业务经验知识。本文介绍一种针对高基数无序类别特征非常有效的预处理方法：平均数编码（Mean Encoding）。在很多数据挖掘类竞赛中，有许多人使用这种方法取得了非常优异的成绩。

2、原理

平均数编码，有些地方也称之为目标编码（Target Encoding），是一种基于目标变量统计（Target Statistics）的有监督编码方式。该方法基于贝叶斯思想，用先验概率和后验概率的加权平均值作为类别特征值的编码值，适用于分类和回归场景。

如何工作：

假设你有一个分类特征和一个数值型目标变量。平均编码的步骤如下：

分组：对于每个类别，根据该类别分组数据。
计算平均值：计算每个类别对应的目标变量的平均值。
映射：将分类特征中的每个类别替换为其对应的平均目标值。

优点：

效率高：平均编码可以显著减少数据的维度，特别是对于高基数的分类特征。
性能提升：它通常可以提供更好的预测性能，因为它直接

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。