独热编码与标签编码

最近在看机器学习,遇到了两种编码形式,OneHotEncoder(独热编码)和LabelEncoder(标签编码),感觉既然都是为了给离散型变量编码,为什么要有两种,既然有两种,那平时该用哪一种。

先说结论:OneHotEncoder更常用,LabelEncoder目前应用场景不多

以下是解释:

用OneHotEncoder是因为:目前大部分算法都是基于向量空间(欧式空间)中的度量来进行计算的,为了使非偏序关系的变量取值不具有偏序性,并且到圆点是等距的。将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。将离散型特征使用独热编码,会让特征之间的距离计算更加合理。离散特征进行编码后,每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样,对每一维特征进行归一化。比如归一化到[-1,1]或归一化到均值为0,方差为1。

OneHotEncoder中,不同特征之间的欧氏距离是相等的,这种特性经常运用到特征相似度的计算中,它可以让离散型变量的特征连续化,同时,OneHotEncoder加上PCA(主成分分析)是目前很常用的方法。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
无序映射是指特征内部取值是无序的情况下的编码方式。标签映射是一种传统的硬编码方式,将类别特征的不同取值按照大小顺序编码成0-(n-1)之间的整数。这种编码方式适用于类别特征内部取值有序的情况。例如,对于学历这个特征,可以使用标签编码将"undergraduate"编码为0,"master"编码为1,"PhD"编码为2,"Postdoc"编码为3。\[1\] 独热编码是一种使用N位状态寄存器来对N个状态进行编码的方式。每个状态都由独立的寄存器位表示,其中只有一位是1,其余位都是0。独热编码主要适用于特征内部取值无序的情况。例如,对于颜色这个特征,可以使用独热编码将"红"编码为\[1, 0, 0\],"蓝"编码为\[0, 1, 0\],"绿"编码为\[0, 0, 1\]。\[2\] 在机器学习中,无序映射可以使用标签映射或独热编码来进行。标签映射适用于特征内部取值有序的情况,而独热编码适用于特征内部取值无序的情况。选择使用哪种编码方式取决于特征的性质和机器学习算法的要求。如果特征内部取值有序,可以使用标签映射;如果特征内部取值无序,可以使用独热编码。\[1\]\[2\] #### 引用[.reference_title] - *1* *2* [机器学习的多种编码方式,独热、标签等](https://blog.csdn.net/weixin_43544567/article/details/120462446)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [独热编码(One-Hot Encoding)](https://blog.csdn.net/yanghaoji/article/details/123734304)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值