为什么使用one-hot编码来处理离散型特征?

最新推荐文章于 2022-04-19 19:17:59 发布

江汉似年

最新推荐文章于 2022-04-19 19:17:59 发布

阅读量1.2k

点赞数

分类专栏：深度学习基础机器学习基础文章标签：机器学习 python sklearn

本文链接：https://blog.csdn.net/yumao1/article/details/103037325

版权

深度学习基础同时被 2 个专栏收录

20 篇文章 0 订阅

订阅专栏

机器学习基础

9 篇文章 1 订阅

订阅专栏

原文链接：机器学习：数据预处理之独热编码（One-Hot） - 浩翔的个人空间 - OSCHINA - 中文开源技术交流社区

One-Hot在python中的使用

————————————————————————————————————————

from sklearn import preprocessing  
  
enc = preprocessing.OneHotEncoder()  
enc.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]])  #这里一共有4个数据，3种特征
  
array = enc.transform([[0,1,3]]).toarray()  #这里使用一个新的数据来测试
  
print array   # [[ 1  0  0  1  0  0  0  0  1]]

结果为 1 0 0 1 0 0 0 0 1

为什么使用one-hot编码来处理离散型特征?

————————————————————————————————————————

在回归，分类，聚类等机器学习算法中，特征之间距离的计算或相似度的计算是非常重要的，而我们常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间。

而我们使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。

将离散型特征使用one-hot编码，确实会让特征之间的距离计算更加合理。

比如，有一个离散型特征，代表工作类型，该离散型特征，共有三个取值，不使用one-hot编码，其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是，(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_3) = 2。那么x_1和x_3工作之间就越不相似吗？显然这样的表示，计算出来的特征的距离是不合理。那如果使用one-hot编码，则得到x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1)，那么两个工作之间的距离就都是sqrt(2).即每两个工作之间的距离是一样的，显得更合理。