11种离散型变量编码方式及效果对比及类别型特征

11种离散变量编码效果对比

一、背景

当我们预处理数据时,碰到类别型变量,需要将它们编码转换后才能输入进模型当中。按照不同的划分标准,类别型变量有:

● 按照类别是否有序:有序和无序的类别特征。

● 按照类别数量:高基类和低基类的类别特征。

针对不同的类别特征和任务,可选的类别特征编码方法也不一样。本文主要介绍常见且好用的类别编码方法,希望对大家有所帮助。

二、方法

  1. 标签编码(Label Encoder)

标签编码就是简单地赋予不同类别,不同的数字标签。属于硬编码,优点是简单直白,网上很多说适用于有序类别型特征,不过如果是分类任务且类别不多的情况下,LGBM只要指定categorical_feature也能有较好的表现。但不建议用在高基类特征上,而且标签编码后的自然数对于回归任务来说是线性不可分的。在这里插入图片描述

4. 计数编码(Count Encoder)

计数编码也叫频次编码。就是用分类特征下不同类别的样本数去编码类别。清晰地反映了类别在数据集中的出现次数,缺点是忽略类别的物理意义,比如说两个类别出现频次相当,但是在业务意义上,模型的重要性也许不一
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值