11种离散型变量编码方式及效果对比及类别型特征

最新推荐文章于 2023-08-31 16:50:41 发布

weixin_45271076

最新推荐文章于 2023-08-31 16:50:41 发布

阅读量1.2k

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_45271076/article/details/122310085

版权

11种离散变量编码效果对比

一、背景

当我们预处理数据时，碰到类别型变量，需要将它们编码转换后才能输入进模型当中。按照不同的划分标准，类别型变量有：

● 按照类别是否有序：有序和无序的类别特征。

● 按照类别数量：高基类和低基类的类别特征。

针对不同的类别特征和任务，可选的类别特征编码方法也不一样。本文主要介绍常见且好用的类别编码方法，希望对大家有所帮助。

二、方法

标签编码（Label Encoder）

标签编码就是简单地赋予不同类别，不同的数字标签。属于硬编码，优点是简单直白，网上很多说适用于有序类别型特征，不过如果是分类任务且类别不多的情况下，LGBM只要指定categorical_feature也能有较好的表现。但不建议用在高基类特征上，而且标签编码后的自然数对于回归任务来说是线性不可分的。在这里插入图片描述

4. 计数编码（Count Encoder）

计数编码也叫频次编码。就是用分类特征下不同类别的样本数去编码类别。清晰地反映了类别在数据集中的出现次数，缺点是忽略类别的物理意义，比如说两个类别出现频次相当，但是在业务意义上，模型的重要性也许不一

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_45271076

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

ML之Scorecard：机器学习中特征工程之WOE编码(离散变量编码/有监督)的简介(两大功能/评分卡场景/意义)、计算公式(局部和全局的差异)、案例应用之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

04-17

3496

DataScience：机器学习中特征工程之WOE编码(离散变量编码/有监督)的简介(两大功能/评分卡场景/意义)、计算公式(局部和全局的差异)、案例应用之详细攻略目录特征工程之WOE编码—离散变量编码(有监督) 特征工程之WOE编码—离散变量编码(有监督) 1、WOE编码的概述：两大功能(特征归一化/特征选择【寻找WOE值更大的特征】)、评分卡场景(WOE结合LoR模型绝配) 背景提出问题：评分卡模型中，怎样对字段的每个分段进行评分呢？这个评分是怎么来的？解决方案

出口部绩效考核关键指标与绩效评估路径

Mr数据杨

10-06

369

通过对出口部各项绩效指标的分析，我们能够全面评估部门在不同时间周期内的业绩表现及其未来发展潜力。每个关键指标都能为出口部提供不同层面的业务洞察，帮助管理层在制定策略时做出更加精准的决策。通过数据分析不仅可以发现部门在市场需求变化、任务达成、盈利能力等方面的优势，还能针对薄弱环节提出优化建议，从而推动出口部持续健康发展。

参与评论您还未登录，请先登录后发表或查看评论

离散变量的编码方式

qq_45734454的博客

11-08

946

在机器学习问题中，我们通过训练数据集学习得到的其实就是一组模型的参数，然后通过学习得到的参数确定模型的表示，最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中，我们会对训练数据集进行抽象、抽取大量特征，这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型（如LR），那么通常我们会对连续型特征进行离散化操作，然后再对离散的特征，进行one-hot编码或哑变量编码或Labe...

离散变量编码

WGS.

11-18

2845

文章目录无监督编码One-hot编码独热编码优缺点调库实现Dummy variable 编码(哑变量)离散变量 One-hot 编码或哑变量编码的优点Label 编码有监督编码WOE编码WOE 编码的好处为什么不直接用WOE做特征选择而用IVIV代码实现数据读取，分割数据集one-hot编码哑变量编码label 标签编码自定义标签映射WOE编码上述源码对离散变量进行编码转换，以进行数值化，其原则是保证编码后变量的距离可计算且符合原始变量之间的距离度量. 常用距离公式介绍无监督编码编码的时候和标签

离散型特征变量编码方式

weixin_45834072的博客

11-10

948

离散型特征变量编码方式1.什么是One_Hot?1.1具体例子演示One_Hot 在机器学习问题中，我们通过训练数据集学习得到的其实就是一组模型的参数，然后通过学习得到的参数确定模型的表示，最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中，我们会对训练数据集进行抽象、抽取大量特征，这些特征中有离散型特征也有连续型特征，我们会对连续型特征进行离散化操作，然后再对离散的特征，进行one...

11种离散型变量编码方式及效果对比

猪逻辑公园

04-17

1753

首先介绍一个关于离散型编码的Python库，里面封装了十几种（包括文中的所有方法）对于离散型特征的编码方法，接口接近于Sklearn通用接口，非常实用。下面是这个库的链接：Category Encoders 1. Label Encoder / Ordered Encoder 这个编码方式非常容易理解，就是把所有的相同类别的特征编码成同一个值，例如女=0，男=1，狗狗=2，所以最后编码的特征值...

机器学习中常见的离散变量的编码方式 onehotencoder(独热编码)

liuzh的博客

01-11

2443

onehotencoder(独热编码) # dataset为数据集 product_tags为需要编码的特征列(假设为第一列) product_tags = dataset.iloc[:, :1] from sklearn.preprocessing import OneHotEncoder enc = OneHotEncoder(categories='auto').fit(product...

数据处理：离散型变量编码及效果分析

Datawhale

01-21

1584

Datawhale作者：小雨姑娘，Datawhale成员 离散型变量编码的Python库首先我要介绍这个关于离散型编码的Python库，里面封装了十几种（包括文中的所有方法）对于离散...

离散型特征编码方式：one-hot与哑变量*

daydayup_668819的博客

08-27

1919

回归模型中的离散型特征编码方式-----Dummy Coding对比One-hot encoding

xiaohutong1991的专栏

08-10

5978

一、哑变量定义哑变量（DummyVariable），也叫虚拟变量，引入哑变量的目的是，将不能够定量处理的变量量化，在线性回归分析中引入哑变量的目的是，可以考察定性因素对因变量的影响，它是人为虚设的变量，通常取值为0或1，来反映某个变量的不同属性。对于有n个分类属性的自变量，通常需要选取1个分类作为参照，因此可以产生n-1个哑变量。如职业、性别对收入的影响，战争、自然灾害对GDP的影响，季节对某些产品（如冷饮）销售的影响等等。这种“量化”通常是通过引入“哑变量”来完成的。根据这些因素的属性类型，构造只取“

白话离散变量分布类型

wendyat163的博客

11-15

381

写此文的目的主要是帮助记忆，因此不会赘述各种分布的来龙去脉。详细的内容可查百度百科。伯努利分布扔一次硬币，正面朝上的概率。二项分布扔n次硬币，有k次正面朝上的概率。 P{X=k}=Cnk_n^knkpk^kk(1−p)n−k(1-p)^{n-k}(1−p)n−k (k=0,1,2…n) 泊松分布百度百科载：泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。泊松分布适合...

离散变量的重编码

G090909的博客

07-11

1344

在建模的过程中离散型的字符变量是不能直接用于建模，需要对这些变量进行重编码。重编码的方法有多种，字符型的值转换为整数型的值、哑变量处理（0-1变量）、One-Hot热编码（类似于哑变量）。 1.字符转数值的方法处理前的数据集： for feature in income.columns: if income[feature].dtype == ‘object’: income[feature...

机器学习决策树篇——解决离散变量的分类问题

Cyrus_May的博客

05-19

5145

机器学习决策树篇——解决离散变量的分类问题摘要熵增益和熵增益率计算熵增益和熵增益率运行结果离散变量的决策树模型决策树模型运行结果摘要本文通过python实现了熵增益和熵增益率的计算、实现了离散变量的决策树模型，并将代码进行了封装，方便读者调用。熵增益和熵增益率计算此对象用于计算离散变量的熵、条件熵、熵增益（互信息）和熵增益率 .cal_entropy()：计算熵的函数 .cal_conditional_entropy()：计算条件熵的函数 .cal_entropy_gain()：计算熵增益（互信息

离散数据编码方式总结(OneHotEncoder、LabelEncoder、OrdinalEncoder、get_dummies、DictVector

光尘的博客

08-31

1609

根据上面的使用简单的总结一下：1、独热编码用于离散的特征且数据无大小意义的数据get_dummies，输入可以是pandas，输出的时候会多出转换后的几列，这个好用一点。数值内容会被遍历当作表头。OneHotEnCoder的fit_transform，输入是二维数组（字符串或者整数），把每一行当作一个样本，每一列当作一个特征，输出的形式也是二维数组。数值内容会被遍历当作表头。DictVectorizer的fit_transform，输入是字典形式，输出的形式也是二维数组。数值内容会保留。

[转]离散数据编码方式总结()

May the Force be with you

11-05

1082

在机器学习的特征选择的时候，往往有一些离散的特征不好计算，此时需要对这些特征进行编码，但是编码方式有很多，不同的包也会有不同的编码方式。（明白的区别吗？）通过在Titanic预测的学习，在这里对不同包的编码方式进行一个小总结。至少以后使用的时候，不那么的乱用了。离散特征的取值之间没有大小的意义，比如color：[red,blue], 性别的男女等，那么就使用OneHot编码离散特征的取值有大小的意义，比如size:[X,XL,XXL],身高的高，中，低等，那么就使用。

常用类别变量编码方式总结

weixin_41744192的博客

05-01

2598

常用编码方式总结1. Ordinal Encoding 序列编码2. One-hot Encoding 独热编码3.Target Encoding 目标编码4. Hashing Encoding 哈希编码5. Catboost Encoder Catboost 编码参考：http://contrib.scikit-learn.org/category_encoders 参考：https://github.com/YC-Coder-Chen/feature-engineering-handbook 1. O

【特征工程】变量编码方式

super_jackchen的博客

11-11

764

文章目录one-hot encoding(独热编码)dummy variable(哑变量) 我们在用模型去解决机器学习问题的时候，要提前进行“特征工程”。而特征工程中很重要的就是对特征的预处理。分类变量是另一类常见的变量，用于表示类别或标记。与数值变量不同的是，分类变量的值是不能被排序的，所以也称无序变量。分类变量处理的核心是如何编码类别。最简单的方式就是使用正整数编码类别，但是这样就使得类别之间...

什么是类别、离散和连续变量？