数据预处理之独热编码（OneHotEncoder）

最新推荐文章于 2024-08-28 11:13:02 发布

秀秀的奇妙旅行

最新推荐文章于 2024-08-28 11:13:02 发布

阅读量1.3k

点赞数 2

本文链接：https://blog.csdn.net/yunxiu988622/article/details/105137431

版权

什么是独热编码（One-Hot）？
One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。
One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。
很多机器学习任务中，特征并不总是连续值，有可能是分类值。

考虑以下三个特征：

["male", "female"]
 
["from Europe", "from US", "from Asia"]
 
["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]

如果将上述特征用数字表示，效率会高很多，例如：

["male", "from US", "uses Internet Explorer"] 表示为[0, 1, 3]
 
["female", "from Asia", "uses Chrome"]表示为[1, 2, 1]

但是，转化为数字表示后，上述数据不能直接用在我们得分类器中。因为，分类器往往默认数据时连续的，并且是有序的。但按上述表示的数字并不是有序的，而且是随机分配的。解决上述问题的一种方法是采用One-Hot Encoding。
One-Hot Encoding ，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。

例如

自然状态码为：000,001,010,011,100,101
 
独热编码为：000001,000010,000100,001000,010000,100000

对于每一个特征，如果它有m个可能值，那么经过One-Hot
Encoding后，就变成了m个二元特征。并且，这些特征互斥，每次只有一个激活。因此，数据就会变成稀疏的。
这样的好处：
解决了分类器不好处理属性数据的问题
在一定程度上起到了扩充特征的作用
独热编码的缺点
当类别的数量很多时，特征空间会变得非常大。在这种情况下，一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。

encoder = preprocessing.OneHotEncoder()
encoder.fit([
    [0, 2, 1, 12],
    [1, 3, 5, 3],
    [2, 3, 2, 12],
    [1, 2, 4, 3]
])
encoded_vector = encoder.transform([[2, 3, 5, 3]]).toarray()
print("\n Encoded vector =", encoded_vector)
 
#输出结果
Encoded vector = [[ 0. 0. 1. 0. 1. 0. 0. 0. 1. 1. 0.]]
 
 
#结果分析：
4个特征：
第一个特征（即为第一列）为[0,1,2,1] ，其中三类特征值[0,1,2]
因此One-Hot Code可将[0,1,2]表示为:[100,010,001]
同理第二个特征列可将两类特征值[2,3]表示为[10,01]
第三个特征将4类特征值[1,2,4,5]表示为[1000,0100,0010,0001]
第四个特征将2类特征值[3,12]表示为[10,01]
 
因此最后可将[2,3,5,3]表示为[0,0,1,0,1,0,0,0,1,1,0]

一、为什么要独热编码？
1,独热编码（是因为大部分算法是基于向量空间中的度量来进行计算的，为了使非偏序关系的变量取值不具有偏序性，并且到原点是等距的。将离散型特征使用one-hot编码，确实会让特征之间的距离计算更加合理。比如，有一个离散型特征，代表工作类型，该离散型特征，共有三个取值，不使用one-hot编码，其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是，(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_3) = 2。那么x_1和x_3工作之间就越不相似吗？显然这样的表示，计算出来的特征的距离是不合理。那如果使用one-hot编码，则得到x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1)，那么两个工作之间的距离就都是sqrt(2).即每两个工作之间的距离是一样的，显得更合理。
使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1。
2,为什么特征向量要映射到欧式空间？
将离散特征通过one-hot编码映射到欧式空间，是因为，在回归，分类，聚类等机器学习算法中，特征之间距离的计算或相似度的计算是非常重要的，而我们常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间。

部分转载于https://blog.csdn.net/m0_38052384/article/details/102738001