特征类型总结

2.3.5 查看特征的数值类型有哪些,对象类型有哪些
特征一般都是由类别型特征和数值型特征组成,而数值型特征又分为连续型和离散型。
类别型特征有时具有非数值关系,有时也具有数值关系。比如‘grade’中的等级A,B,C等,
是否只是单纯的分类,还是A优于其他要结合业务判断。
数值型特征本是可以直接入模的,但往往风控人员要对其做分箱,
转化为WOE编码进而做标准评分卡等操作。从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定
‘’'广义来讲分为 类别、id型特征+数值型特征

第一类是类别、ID 型特征——电影的风格、ID、标签、导演演员等信息,用户看过的电影 ID、用户的性别、地理位置信息、当前的季节、时间(上午,下午,晚上)、天气等等,这些无法用数字表示的信息全都可以被看作是类别、ID 类特征。

第二类是数值型特征——能用数字直接表示的特征就是数值型特征,典型的包括用户的年龄、收入、电影的播放时长、点击量、点击率等。
数值型特征本来就是用数字表示的,类别型特征我们可以用任何形式表示,数字只是其中的一种表示区别的方法而已
对于类别型特征的处理方法:在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
优缺点对比

独热编码方法特征哈希方法Bin-counting方法
优点最容易实现、可能是最准确的 、可线上进行容易实现、训练成本低 适应新的类别、可处理稀有类别 可线上进行训练时最小的计算负担、容易适应新的类别使用树模型可解释性强
缺点计算效率低、不适应不断增长的类别、只适用线性模型仅适用于线性或核模型哈希后特征不可解释、准确度报告不一需要历史数据、需要延迟更新,不适合线上进行、更高的过拟合风险

没有一个方法是完美的,选择使用哪一个取决于所采用的机器学习模型。线性模型训练成本更低,更适合采用独热编码。基于树的模型通常采用Bin-counting的方法。特征哈希方法需要结合实际情况,灵活运用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值