数据特征处理：类别与数值类型探索与编码策略-CSDN博客

本文链接：https://blog.csdn.net/weixin_45271076/article/details/122131751

2.3.5 查看特征的数值类型有哪些，对象类型有哪些
特征一般都是由类别型特征和数值型特征组成，而数值型特征又分为连续型和离散型。
类别型特征有时具有非数值关系，有时也具有数值关系。比如‘grade’中的等级A，B，C等，
是否只是单纯的分类，还是A优于其他要结合业务判断。
数值型特征本是可以直接入模的，但往往风控人员要对其做分箱，
转化为WOE编码进而做标准评分卡等操作。从模型效果上来看，特征分箱主要是为了降低变量的复杂性，减少变量噪音对模型的影响，提高自变量和因变量的相关度。从而使模型更加稳定
‘’'广义来讲分为类别、id型特征+数值型特征

第一类是类别、ID 型特征——电影的风格、ID、标签、导演演员等信息，用户看过的电影 ID、用户的性别、地理位置信息、当前的季节、时间（上午，下午，晚上）、天气等等，这些无法用数字表示的信息全都可以被看作是类别、ID 类特征。

第二类是数值型特征——能用数字直接表示的特征就是数值型特征，典型的包括用户的年龄、收入、电影的播放时长、点击量、点击率等。
数值型特征本来就是用数字表示的，类别型特征我们可以用任何形式表示，数字只是其中的一种表示区别的方法而已
对于类别型特征的处理方法：在这里插入图片描述

优缺点对比

	独热编码方法	特征哈希方法	Bin-counting方法
优点	最容易实现、可能是最准确的、可线上进行	容易实现、训练成本低适应新的类别、可处理稀有类别可线上进行	训练时最小的计算负担、容易适应新的类别使用树模型可解释性强
缺点	计算效率低、不适应不断增长的类别、只适用线性模型	仅适用于线性或核模型哈希后特征不可解释、准确度报告不一	需要历史数据、需要延迟更新，不适合线上进行、更高的过拟合风险

没有一个方法是完美的，选择使用哪一个取决于所采用的机器学习模型。线性模型训练成本更低，更适合采用独热编码。基于树的模型通常采用Bin-counting的方法。特征哈希方法需要结合实际情况，灵活运用。