利用Target Encoding 处理类别变量的 Python 代码，告别类别变量处理的烦恼

田晖扬

已于 2023-06-20 11:49:58 修改

阅读量550

点赞数

文章标签： python 开发语言

于 2023-06-20 11:49:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yang1015661763/article/details/131303879

版权

import pandas as pd
import numpy as np
from category_encoders import TargetEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score

# 加载数据集
data = pd.read_csv('train_data.csv')

# 分割训练集和测试集
train, test = train_test_split(data, test_size=0.2, random_state=42)

# 定义目标变量和特征列
target_col = 'target'
cat_cols = ['cat_var1', 'cat_var2', 'cat_var3']

# 使用 Target Encoding 编码类别变量
encoder = TargetEncoder(cols=cat_cols)
encoder.fit(train[cat_cols], train[target_col])
train_encoded = encoder.transform(train[cat_cols])
test_encoded = encoder.transform(test[cat_cols])

# 将编码后的特征与原始数据集合并
train_merged = pd.concat([train.drop(cat_cols, axis=1), train_encoded], axis=1)
test_merged = pd.concat([test.drop(cat_cols, axis=1), test_encoded], axis=1)

# 训练逻辑回归模型并评估性能
lr = L

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
利用Target Encoding 处理类别变量的 Python 代码，告别类别变量处理的烦恼

接下来，我们使用 TargetEncoder 来对类别型特征进行编码。TargetEncoder 通过将每个类别型特征的值替换为该类别型特征在训练集中对应目标变量的平均值来完成编码。这种方法可以避免稀疏性问题，并捕捉类别型特征和目标变量之间的关系。然后，我们将编码后的特征与原始数据集合并，并使用逻辑回归模型对处理后的数据集进行训练和评估性能。在本示例中，我们使用 AUC 作为性能指标来评估模型的性能。然后，我们将数据集拆分为训练集和测试集，并指定目标变量和类别型特征列。最后，我们输出模型的 AUC 值。
复制链接

扫一扫

田晖扬 CSDN认证博客专家 CSDN认证企业博客

码龄14年

58: 原创

23万+: 周排名

4万+: 总排名

3万+: 访问

: 等级

684: 积分

664: 粉丝

99: 获赞

14: 评论

96: 收藏

私信

关注

热门文章

分类专栏

hive内置函数讲解付费 9篇

最新评论

什么是欧拉筛？？
LbZh1899: 这个不是埃氏筛法吗
股票数据下载
holywangle: 你好博主，沙狐官网打不开哦，能提供一下安装包吗？
SHAP算法在营销增益模型中的尝试
白话机器学习: 文章内容通俗易懂，适合不同层次的读者。无论是初学者还是资深从业者，都能从中获得不同层次的收获
模型快速部署之决策树模型转SQL-case-when概率代码
CSDN-Ada助手: 非常感谢您的分享，看到您已经写了19篇博客，真是非常厉害！您的这篇博客非常有用，对于快速部署决策树模型转SQL-case-when概率代码提供了非常好的思路。作为读者，我觉得能够学到这样实用的知识真是太棒了。希望您能够继续写出这样高质量的博客，并分享更多有价值的知识。下一步的创作建议是可以考虑写一些实战案例，帮助读者更好地理解如何应用所学知识解决实际问题。再次感谢您的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply19 看奖励名单。
利用LightGBM分析客群迁徙原因
CSDN-Ada助手: 恭喜您写了这么精彩的第20篇博客！利用LightGBM分析客群迁徙原因，这个主题十分有意思，我从中学到了很多新知识。希望您能继续保持创作的热情，分享更多的技术和经验。下一步，我建议您可以深入探讨一些实际案例，结合具体数据进行分析，这样更能吸引读者的关注。再次感谢您的分享，期待您的下一篇作品！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply20 看奖励名单。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

田晖扬 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。