One-Hot Encoding(独热编码)通俗理解

由来

机器学习任务中,特征有连续的值和分类的值;所以我们进行预处理时,对离散特征的编码分为了以下两种情况:

  • 1.像color[red,black,blue]这样离散特征的取值之间没有大小的意义,就可以使用one-hot编码
    2.像size[S,M,L,XL]这样离散特征的取值有大小的意义,就直接使用数值的映射{S:1,M:2,L:3,XL:4}.

这里借用一个比较常用的例子:

  • 考虑三个特征:
    [“male”, “female”]
    [“from Europe”, “from US”, “from Asia”]
    [“uses Firefox”, “uses Chrome”, “uses Safari”, “uses Internet Explorer”]

  • 我们可以将以上特征组成的数据用数字表示:
    [“male”, “from US”, “uses Internet Explorer”] 表示为[0, 1, 3]
    [“female”, “from Asia”, “uses Chrome”]表示为[1, 2, 1]

我们可以发现,这些数字并不是连续有序的,所以不能直接应用在分类器中(分类器默认数据是连续的),对于这个问题,One-Hot Encoding可以解决。

One-Hot Encoding
  • 独热编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。

  • 即上面那个例子:
    [“male”, “female”]
    [“from Europe”, “from US”, “from Asia”]
    [“uses Firefox”, “uses Chrome”, “uses Safari”, “uses Internet Explorer”]

  • 使用独热编码转化为:
    feature1=[01,10]
    feature2=[001,010,100]
    feature3=[0001,0010,0100,1000]

所以对于每一个特征,如果它有m个可能的值,经过独热编码后就会变成m个二元特征,并且这些特征互斥,每次只有一个激活。因此,数据就变成了稀疏的。

使用了独热编码后:
1.解决了分类器不好处理属性数据的问题;
2.在一定程度上起到了扩充特征的作用。

sklearn实例
encoder = preprocessing.OneHotEncoder()
encoder.fit([
    [0, 2, 1, 12],
    [1, 3, 5, 3],
    [2, 3, 2, 12],
    [1, 2, 4, 3]
])
encoded_vector = encoder.transform([[2, 3, 5, 3]]).toarray()
print("\n Encoded vector =", encoded_vector)

输出:Encoded vector = [[ 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]]

  • 就是说这四个特征中:
    1.第一个特征(即为第一列)为[0,1,2,1] ,其中三类特征值[0,1,2],因此One-Hot Code可将[0,1,2]表示为:[100,010,001]
    2.同理第二个特征列可将两类特征值[2,3]表示为[10,01]
    3.第三个特征将4类特征值[1,2,4,5]表示为[1000,0100,0010,0001]
    4.第四个特征将2类特征值[3,12]表示为[10,01]

最后系统输入新的向量[[2, 3, 5, 3]]进行转换:
第一个数字2在第一个特征中是第3位的,表示为001;
第二个数字3在第二个特征中是第1位的,表示为10;
第一个数字5在第三个特征中是第4位的,表示为0001;
第二个数字3在第四个特征中是第1位的,表示为10;

因此最后[2, 3, 5, 3]转换为独热编码为[ 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值