一、背景
当我们预处理数据时,碰到类别型变量,需要将它们编码转换后才能输入进模型当中。按照不同的划分标准,类别型变量有:
● 按照类别是否有序:有序和无序的类别特征。
● 按照类别数量:高基类和低基类的类别特征。
针对不同的类别特征和任务,可选的类别特征编码方法也不一样。本文主要介绍常见且好用的类别编码方法,希望对大家有所帮助。
二、方法
- 标签编码(Label Encoder)
标签编码就是简单地赋予不同类别,不同的数字标签。属于硬编码,优点是简单直白,网上很多说适用于有序类别型特征,不过如果是分类任务且类别不多的情况下,LGBM只要指定categorical_feature也能有较好的表现。但不建议用在高基类特征上,而且标签编码后的自然数对于回归任务来说是线性不可分的。
4. 计数编码(Count Encoder)
计数编码也叫频次编码。就是用分类特征下不同类别的样本数去编码类别。清晰地反映了类别在数据集中的出现次数,缺点是忽略类别的物理意义,比如说两个类别出现频次相当,但是在业务意义上,模型的重要性也许不一