离散型特征变量编码方式

最新推荐文章于 2022-01-23 10:48:02 发布

爵迹灬疯

最新推荐文章于 2022-01-23 10:48:02 发布

阅读量786

点赞数

本文链接：https://blog.csdn.net/weixin_45834072/article/details/102999665

版权

离散型特征变量编码方式

在机器学习问题中，我们通过训练数据集学习得到的其实就是一组模型的参数，然后通过学习得到的参数确定模型的表示，最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中，我们会对训练数据集进行抽象、抽取大量特征，这些特征中有离散型特征也有连续型特征，我们会对连续型特征进行离散化操作，然后再对离散的特征，进行one-hot编码或哑变量编码。这样的操作通常会使得我们模型具有较强的非线性能力。

1.什么是One_Hot?

one-hot编码是N位状态寄存器为N个状态进行编码的方式，这样的名词性解释过于的难以理解，我们只需要了解one-hot编码是将类别变量转换为机器学习算法中容易处理的一种形式！one-hot的基本思想：将离散型特征的每一种取值都看成一种状态，若你的这一特征中有N个不相同的取值，那么我们就可以将该特征抽象成N种不同的状态，one-hot编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这N种状态中只有一个状态位值为1，其他状态位都是0。

1.1具体例子演示One_Hot

假设我们以学历为例，我们想要研究的类别为小学、中学、大学、硕士、博士五种类别，我们使用one-hot对其编码就会得到：
在这里插入图片描述

2.One_Hot处理离散特征

在使用one-hot编码中，我们可以将离散特征的取值扩展到欧式空间，在机器学习中，我们的研究范围就是在欧式空间中，首先这一步，保证了能够适用于机器学习中；而另外对于one-hot处理的离散的特征的某个取值也就对应了欧式空间的某个点！原因是，在统计机器学习算法中的回归，分类这些问题中，特征之间距离的计算或相似度计算非常重要，比如大家常用的k-means，而我们常用的这些计算都在欧式空间中进行相似度计算。换句话说，就是我上面说的研究范围在欧式空间，保证了one-hot编码的成立！

3.dummy encoding（哑编码）

哑变量编码直观的解释就是任意的将一个状态位去除。还是拿上面的例子来说，我们用4个状态位就足够反应上述5个类别的信息，也就是我们仅仅使用前四个状态位 [0,0,0,0] 就可以表达博士了。只是因为对于一个我们研究的样本，他已不是小学生、也不是中学生、也不是大学生、又不是研究生，那么我们就可以默认他是博士。所以，我们用哑变量编码可以将上述5类表示成

最低0.47元/天解锁文章

爵迹灬疯

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
离散型特征变量编码方式

离散型特征变量编码方式1.什么是One_Hot?1.1具体例子演示One_Hot在机器学习问题中，我们通过训练数据集学习得到的其实就是一组模型的参数，然后通过学习得到的参数确定模型的表示，最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中，我们会对训练数据集进行抽象、抽取大量特征，这些特征中有离散型特征也有连续型特征，我们会对连续型特征进行离散化操作，然后再对离散的特征，进行one...
复制链接

扫一扫