sklearn：机器学习分类特征编码category_encoders

最新推荐文章于 2024-03-16 19:54:47 发布

Cachel wood

最新推荐文章于 2024-03-16 19:54:47 发布

阅读量635

点赞数 1

分类专栏： python机器学习和数据挖掘文章标签：分类数据挖掘人工智能 python pandas sklearn 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46530492/article/details/136106058

版权

python机器学习和数据挖掘专栏收录该内容

47 篇文章 51 订阅 ¥15.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了category_encoders库在机器学习中的应用，包括OrdinalEncoder的序列编码，OneHotEncoder的独热编码，TargetEncoder的目标编码等。这些编码方法将类别变量转换为数字，便于模型处理。同时，文章提到了不同编码方式的优缺点和适用场景，如TargetEncoder在处理分类问题时能结合因变量信息，而HashingEncoder和CatBoostEncoder提供了防止过拟合的解决方案。

摘要由CSDN通过智能技术生成

文章目录

相比 sklearn.processing，category_encoders也具有 one-hot encoder、binary encoder、LabelEncoder等常见编码方式，同时实现了目标编码、贝叶斯编码、频率编码等编码方式，使得能够更好地捕捉类别型变量特征的贡献。

category_encoders简介

category_encoders是一组scikit-learn风格的转换器，用不同的技术将类别变量编码成数字。虽然序数编码、独热编码和散列编码在现有scikit-learn版本中具有类似的等价性，但这个库有一些有用的特性:

对pandas数据文件作为输入(可选作为输出)的一流支持
可以显式配置数据中的哪些列按名称或索引编码，或推断非数字列，而不管输入类型
可以根据训练集随意删除任何方差很低的列
可移植性:培训数据转换器，pickle它，以后重用它，然后得到同样的东西。
完全兼容sklearn管道，输入一个类似数组的数据集，像任何其他转换器

了解本专栏

超级会员免费看

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
sklearn：机器学习分类特征编码category_encoders

是一组风格的转换器，用不同的技术将类别变量编码成数字。虽然序数编码、独热编码和散列编码在现有对pandas数据文件作为输入(可选作为输出)的一流支持可以显式配置数据中的哪些列按名称或索引编码，或推断非数字列，而不管输入类型可以根据训练集随意删除任何方差很低的列可移植性:培训数据转换器，pickle它，以后重用它，然后得到同样的东西。完全兼容sklearn管道，输入一个类似数组的数据集，像任何其他转换器'__all__','__doc__','basen','binary',
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Cachel wood 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。