【机器学习】数据预处理中常见的独热编码（One-hot Encoding）与哑编码（Dummy Encoding）区别

最新推荐文章于 2023-12-16 03:32:10 发布

小胡同1991

最新推荐文章于 2023-12-16 03:32:10 发布

阅读量2.8k

点赞数 2

分类专栏：机器学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/xiaohutong1991/article/details/117116031

版权

本文介绍了机器学习中离散型特征的编码方式，包括One-hot Encoding和Dummy Encoding。One-hot Encoding将每个离散特征的取值转化为独立的二进制变量，确保只有一个状态为1。Dummy Encoding则通过省略一个状态位来表示其他所有状态的否定，主要用于回归模型。两者都能提升模型的非线性能力。

摘要由CSDN通过智能技术生成

参考博客：离散型特征编码方式：one-hot与哑变量*

一、导语

在机器学习问题中，我们通过训练数据集学习得到的其实就是一组模型的参数，然后通过学习得到的参数确定模型的表示，最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中，我们会对训练数据集进行抽象、抽取大量特征，这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型（如LR），那么通常我们会对连续型特征进行离散化操作，然后再对离散的特征，进行one-hot编码或哑变量编码。这样的操作通常会使得我们模型具有较强的非线性能力。那么这两种编码方式是如何进行的呢？它们之间是否有联系？又有什么样的区别？是如何提升模型的非线性能力的呢？下面我们一一介绍：

二、One-hot Encoding

2.1基本思想

将离散型特征的每一种取值都看成一种状态，若你的这一特征中有N个不相同的取值，那么我们就可以将该特征抽象成N种不同的状态，one-hot编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这N种状态中只有一个状态位值为1，其他状态位都是0。举个例子，假设我们以学历为例，我们想要研究的类别为小学、中学、大学、硕士、博士五种类别，我们使用one-hot对其编码就需要5位来表示。