机器学习-数据预处理之独热编码（One-Hot）

最新推荐文章于 2023-12-11 12:54:08 发布

时光偷走初心-

最新推荐文章于 2023-12-11 12:54:08 发布

阅读量1.2k

点赞数

文章标签：机器学习数据处理毒热编码

本文链接：https://blog.csdn.net/wzy2643/article/details/98473814

版权

机器学习-数据预处理之独热编码（One-Hot）

在机器学习算法中，我们经常会遇到分类特征，例如：人的性别有男有女，国籍有中国，美国，法国等。这些特征值并不是连续的，而是离散的，无序的。通常我们需要对其进行特征数字化。

那什么是特征数字化呢？例子如下：

性别特征：[“男”，“女”]
祖国特征：[“中国”，"美国，“法国”]
运动特征：[“足球”，“篮球”，“羽毛球”，“乒乓球”]

如果将上述特征数字化，效率会高很多。例如：

[“男”,“中国”,“乒乓球”]，我们可以用 [0,0,4] 来表示
[“女”,“法国”,“篮球”]，我们可以用 [1,2,1] 来表示

但是，转化为数字表示后，上述数据也不能直接用在我们的分类器中。因为，分类器往往默认数据数据是连续的（可以计算距离），并且是有序的（而上面这个0并不是说比1要高级）。但是，按照我们上述的表示，数字并不是有序的，而是随机分配的。这样的特征处理并不能直接放入机器学习算法中。因为类别之间是无序的（运动数据就是任意排序的）。

独热编码（One-Hot）

为了解决上述问题，其中一种可能的解决方法是采用独热编码（One-Hot Encoding）。独热编码即 One-Hot 编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效。
例如：

自然状态码为：000,001,010,011,100,101
独热编码为：000001,000010,000100,001000,010000,100000

可以这样理解，对于每一个特征，如果它有m个可能值，那么经过独热编码后，就变成了m个二元特征（如成绩这个特征有好，中，差变成one-hot就是100, 010, 001）。并且，这些特征互斥，每次只有一个激活。因此，数据会变成稀疏的。

One-Hot编码是分类变量作为二进制向量的表示。这首先要求将分类值映射到整数值。然后，每个整数值被表示为二进制向量，除了整数的索引之外，它都是零值，它被标记为1。

举例1：
举个例子，假设我们有四个样本（行），每个样本有三个特征（列），如图：

在这里插入图片描述

上述feature_1有两种可能的取值，比如是男/女，这里男用1表示，女用2表示。feature_2 和 feature_3 各有4种取值（状态）。
one-hot 编码就是保证每个样本中的单个特征只有1位处于状态1，其他的都是0。

上述状态用 one-hot 编码如下图所示：
在这里插入图片描述

举例2：
按照 N位状态寄存器来对N个状态进行编码的原理，处理后应该是这样的

性别特征：[“男”,“女”] （这里只有两个特征，所以 N=2）：

男 => 10

女 => 01

祖国特征：[“中国”，"美国，“法国”]（N=3）：

中国 => 100

美国 => 010

法国 => 001

运动特征：[“足球”，“篮球”，“羽毛球”，“乒乓球”]（N=4）：

足球 => 1000

篮球 => 0100

羽毛球 => 0010

乒乓球 => 0001

所以，当一个样本为 [“男”,“中国”,“乒乓球”] 的时候，完整的特征数字化的结果为：

在这里插入图片描述

python 代码示例：

from sklearn.preprocessing import OneHotEncoder

# 创建独热编码对象
oh = OneHotEncoder()

# 训练。这里共有4个数据，3种特征
oh.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]])

# 测试。这里使用1个新数据来测试
array = oh.transform([[0,0,3]]).toarray()

print(array)

# 效果展示如下
[[1. 0. 1. 0. 0. 0. 0. 0. 1.]]

以上对应关系可以解释为下图：
在这里插入图片描述

为什么要独热编码？

正如上文所言，独热编码（哑变量 dummy variable）是因为大部分算法是基于向量空间中的度量来进行计算的，为了使非偏序关系的变量取值不具有偏序性，并且到圆点是等距的。使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1。

为什么特征向量要映射到欧式空间？

将离散特征通过one-hot编码映射到欧式空间，是因为，在回归，分类，聚类等机器学习算法中，特征之间距离的计算或相似度的计算是非常重要的，而我们常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间。

独热编码优缺点

优点：独热编码解决了分类器不好处理属性离散数据的问题，在一定程度上也起到了扩充特征的作用。它的值只有0和1，不同的类型存储在垂直的空间。
缺点：当类别的数量很多时，它得到的特征是离散稀疏的 (这个问题最严重)，特征空间会变得非常大。在这种情况下，一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。

什么情况下(不)用独热编码？

用：独热编码用来解决类别型数据的离散值问题，
不用：将离散型特征进行one-hot编码的作用，是为了让距离计算更合理，但如果特征是离散的，并且不用one-hot编码就可以很合理的计算出距离，那么就没必要进行one-hot编码。有些基于树的算法在处理变量时，并不是基于向量空间度量，数值只是个类别符号，即没有偏序关系，所以不用进行独热编码。 Tree Model不太需要one-hot编码：对于决策树来说，one-hot的本质是增加树的深度。
总的来说，要是one hot encoding的类别数目不太多，建议优先考虑。