数据预处理之将类别数据数字化的方法 —— LabelEncoder

LabelEncoder是什么

  • 在数据处理过程中,我们有时需要对不连续的数字或者文本进行数字化处理。
  • 在使用 Python 进行数据处理时,用 encoder 来转化 dummy variable(虚拟数据)非常简便,encoder 可以将数据集中的文本转化成0或1的数值。
  • LabelEncoder 是 scikit-learn 包中的两个功能,可以实现上述的转化过程。

数据集中的类别数据

在使用回归模型和机器学习模型时,所有的考察数据都是数值更容易得到好的结果。因为回归和机器学习都是基于数学函数方法的,所以当我们要分析的数据集中出现了类别数据(categorical data),此时的数据是不理想的,因为我们不能用数学的方法处理它们。例如,在处理男和女两个性别数据时,我们用0和1将其代替,再进行分析。由于这种情况的出现,我们需要可以将文字数字化的现成方法。

  • LabelEncoder 将一列文本数据转化成数值。
  • 例如,[red, blue, red, yellow] = [0,2,0,1]

参考资料:

数据预处理之将类别数据数字化的方法 —— LabelEncoder VS OneHotEncoder - 知乎 (zhihu.com)

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值