类别特征处理方法

序号编码

就是给一个类别定义一个数字,用数字代表类别。因为数字是可以进行模型训练的。
比较适合哪种类别之间存在大小关系的特征,例如身高:高,中,低;体重:超重,偏中,正常,偏瘦,过瘦等。
各个类别之间无大小关系的话并不建议使用,例如血型,颜色等。因为数字会引入大小关系而原特征没有。此时建议使用One-hot编码。

one-hot编码(独热编码)

One-hot编码适合于解决各个类别相互独立的特征编码。但是One-hot编码存在以下问题需要谨慎:
1.特征维度增加。
2.内存增加,训练时间增加,可以使用稀疏矩阵减低代价。
3.各种boosting tree模型使用One-hot编码并不见得有效。
树模型是否需要one-hot编码

二进制编码

相当于序号编码和one-hot编码的二不像结合体,我并没有使用过。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值