One-Hot 独热编码

最新推荐文章于 2024-09-16 17:18:37 发布

_泥鳅

最新推荐文章于 2024-09-16 17:18:37 发布

阅读量268

点赞数

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46283583/article/details/118660910

版权

数据挖掘专栏收录该内容

6 篇文章 2 订阅

订阅专栏

文章目录

为什么使用One-Hot独热编码
什么是One-Hot独热编码
案例
- 示例1
- 示例2
One-Hot 编码优缺点
- 优点
- 缺点
常见疑问

为什么使用One-Hot独热编码

在机器学习算法中，我们经常会遇到分类特征，例如：人的性别有男女，祖国有中国，美国，法等。这些特征值并不是连续的，而是离散的，无序的。
如果要作为机器学习算法的输入，通常我们需要对其进行特征数字化。什么是特征数字化呢？例如：性别特征：[“男”，“女”]，祖国特征：[“中国”，"美国，“法国”]，运动特征：[“足球”，“篮球”，“羽毛球”，“乒乓球”]。假如某个样本（某个人），他的特征是 [“男”,“中国”,“乒乓球”] ，我们可以用 [0,0,4] 来表示，但是这样的特征处理并不能直接放入机器学习算法中。因为类别之间是无序的。

什么是One-Hot独热编码

独热编码即 One-Hot 编码，又称一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。
- One-Hot 编码是分类变量作为二进制向量的表示。
- 要求将分类值映射到整数值。
- 除了整数的索引之外，它都是零值，它被标记为1。

案例

示例1

在这里插入图片描述

如表所示，假设有四个样本（行），每个样本有三个特征（列）。
上述feature_1有两种可能的取值，比如是男/女，这里男用1表示，女用2表示。feature_2 和 feature_3 各有4种取值（状态）。
one-Hot 编码就是保证每个样本中的单个特征只有1位处于状态1，其他的都是0。
上述状态使用One-Hot编码表示：

示例2

按照 N位状态寄存器来对N个状态进行编码的原理进行处理

性别特征：["男","女"] （这里只有两个特征，所以 N=2）：
男  =>  10
女  =>  01
祖国特征：["中国"，"美国，"法国"]（N=3）：
中国  =>  100
美国  =>  010
法国  =>  001
运动特征：["足球"，"篮球"，"羽毛球"，"乒乓球"]（N=4）：
足球  =>  1000
篮球  =>  0100
羽毛球  =>  0010
乒乓球  =>  0001

当一个样本为 [“男”,“中国”,“乒乓球”] 的时候，完整的特征数字化的结果为：[1，0，1，0，0，0，0，0，1]

One-Hot 编码优缺点

优点

解决了分类器不好处理离散数据的问题。
- 欧式空间。在回归，分类，聚类等机器学习算法中，特征之间距离计算或相似度计算是非常重要的，而我们常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间。
- One-Hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用One-Hot编码，确实会让特征之间的距离计算更加合理。
- 在一定程度上也起到了扩充特征的作用。

缺点

在文本特征表示上有些缺点非常突出。
- 它是一个词袋模型，不考虑词与词之间的顺序（文本中词的顺序信息也是很重要的）；
- 它假设词与词相互独立（在大多数情况下，词与词是相互影响的）；
- 它得到的特征是离散稀疏的 (这个问题最严重)；

常见疑问

为什么得到的特征是离散稀疏的

例如，如果将世界所有城市名称作为语料库的话，那这个向量会过于稀疏，并且会造成维度灾难。如下：

杭州 [0,0,0,0,0,0,0,1,0,……，0,0,0,0,0,0,0]
上海 [0,0,0,0,1,0,0,0,0,……，0,0,0,0,0,0,0]
宁波 [0,0,0,1,0,0,0,0,0,……，0,0,0,0,0,0,0]
北京 [0,0,0,0,0,0,0,0,0,……，1,0,0,0,0,0,0]
在语料库中，杭州、上海、宁波、北京各对应一个向量，向量中只有一个值为1，其余都为0。

不需要使用one-hot编码来处理的情况

离散型特征进行one-hot编码的作用，是为了让距离计算更合理，但如果特征是离散的，并且不用one-hot编码就可以很合理的计算出距离，那么就没必要进行one-hot编码。
比如，该离散特征共有1000个取值，我们分成两组，分别是400和600,两个小组之间的距离有合适的定义，组内的距离也有合适的定义，那就没必要用one-hot 编码。
离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

_泥鳅 CSDN认证博客专家 CSDN认证企业博客

码龄5年

41: 原创

4万+: 周排名

183万+: 总排名

29万+: 访问

: 等级

2182: 积分

862: 粉丝

427: 获赞

69: 评论

2001: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python数学建模时间序列处理
_泥鳅: 就是pandas中频率的一个表示，频率为“A-DEC”，表示截至12月的年度周期。
Python数学建模时间序列处理
尘游946: A-DEC是啥
Python123 练习6
Milos_Master: 最后那个随机生产序列号，两个必须都是Int类型，否则和题目结果不一样
近似熵原理(Approximate Entropy)与Python实现
qq_46213910: 大神们，可以告诉我这个代码怎么用吗？我把它复制到spyder里面没有任何输出，我在In【2】：后输入（1,2,1）序列也不行。是应该在哪里输入序列，在哪里输出近似熵的值啊？
切片逆回归原理(SIR)与Python实现
uniquezw: 请问第二步通过仿射变换标准化Xi，这一步的意义怎么解释，求大佬解答

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

_泥鳅 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。