机器学习的几种编码

1. One-hot(独热)编码: 

独热编码e1,e2,e3限制条件,数据的向量长度,必须是ek。 

e1 + e2 + e3 + ... + ek = 1

优点:允许多个有效模型一样

缺点: 非唯一性有时无法解释问题。 

2. dummy(虚拟)编码: 产生独特和可解释 的模型,但是不能轻易处理缺少的数据。

 

3. Effect编码:使用不同的编码来避免虚拟编码的问题,但是大量是使用-1, 对于存储和计算都非常昂贵。 

 

 

独热,虚拟和效果编码非常相似。他们每个人都有优点和缺点。独热编码是多余的,它允许多个有效模型一样的问题。非唯一性有时候对解释有问题。该优点是每个特征都明显对应于一个类别。此外,失踪数据可以编码为全零矢量,输出应该是整体目标变量的平均值。

虚拟编码和效果编码不是多余的。他们产生独特和可解释的模型。虚拟编码的缺点是它不能轻易处理缺少数据,因为全零矢量已经映射到参考类别。它还编码每个类别相对于参考类别的影响,其中看起来很奇怪。效果编码通过使用不同的代码来避免此问题参考类别。但是,所有-1的矢量都是一个密集的矢量,对于存储和计算来说都很昂贵。因此,Pandas和Scikit Learn等流行的ML软件包选择了虚拟编码或独热编码,而不是效应编码。当类别数量变得非常多时,所有三种编码技术都会失效大。需要不同的策略来处理非常大的分类变量。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值