独热编码

独热编码 one-hot code, 即有多少个状态就有多少比特,且只有一个比特为1,其他全为0的一种码制。在机器学习中对于离散型的分类型的数据,需要对其进行数字化比如说性别这一属性,只能有男性或者女性两种,一种简单的方式就是男性为0,女性为1,使用简单的序列对分类值进行表示后,进行模型训练时可能会产生一个问题:特征因为数值不同影响模型的训练效果,在模型训练的过程中不同的值使得同一特征在样本中的权重可能发生变化。为了使训练过程中不因为分类值表示不同对模型产生的负面影响,对分类型的特征进行独热码编码。
独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。

例如对六个状态进行编码:
自然顺序码为 000,001,010,011,100,101
独热编码则是 000001,000010,000100,001000,010000,100000

再例如性别特征有男,女两个值,其独热编码就分别为10和01。

但产生的问题是:当特征类别较多时,数据经过独热编码可能会变得过于稀疏。

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值