2.3.5 查看特征的数值类型有哪些,对象类型有哪些
特征一般都是由类别型特征和数值型特征组成,而数值型特征又分为连续型和离散型。
类别型特征有时具有非数值关系,有时也具有数值关系。比如‘grade’中的等级A,B,C等,
是否只是单纯的分类,还是A优于其他要结合业务判断。
数值型特征本是可以直接入模的,但往往风控人员要对其做分箱,
转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定
‘’'广义来讲分为 类别、id型特征+数值型特征
第一类是类别、ID 型特征——电影的风格、ID、标签、导演演员等信息,用户看过的电影 ID、用户的性别、地理位置信息、当前的季节、时间(上午,下午,晚上)、天气等等,这些无法用数字表示的信息全都可以被看作是类别、ID 类特征。
第二类是数值型特征——能用数字直接表示的特征就是数值型特征,典型的包括用户的年龄、收入、电影的播放时长、点击量、点击率等。
数值型特征本来就是用数字表示的,类别型特征我们可以用任何形式表示,数字只是其中的一种表示区别的方法而已
对于类别型特征的处理方法:在这里插入图片描述

优缺点对比
独热编码方法 | 特征哈希方法 | Bin-counting方法 | |
---|---|---|---|
优点 | 最容易实现、可能是最准确的 、可线上进行 | 容易实现、训练成本低 适应新的类别、可处理稀有类别 可线上进行 | 训练时最小的计算负担、容易适应新的类别使用树模型可解释性强 |
缺点 | 计算效率低、不适应不断增长的类别、只适用线性模型 | 仅适用于线性或核模型哈希后特征不可解释、准确度报告不一 | 需要历史数据、需要延迟更新,不适合线上进行、更高的过拟合风险 |
没有一个方法是完美的,选择使用哪一个取决于所采用的机器学习模型。线性模型训练成本更低,更适合采用独热编码。基于树的模型通常采用Bin-counting
的方法。特征哈希方法需要结合实际情况,灵活运用。