数据准备--降低基数,连续变量分段

数据准备包括收集数据、错误值清理和衍生变量生成。对于基数过大的名义变量,可通过合并类别、创建'other'类别等方式降低基数。连续变量分段常用等距或最优分段,后者通过决策树优化预测能力。抽样方法如随机抽样、均衡抽样和分层抽样用于处理大规模数据,以构建信用评分卡。
摘要由CSDN通过智能技术生成

数据准备非常重要:
1.从不同的渠道收集数据;
2.清理数据中意外错误或被认为是极端值的取值;
3.生成衍生的变量(feature)。

在数据处理过程,需要进行的操作:

  • 当名义变量的取值大于12个,考虑降低基数:

1>将相同含义的变量合并;
2>出现频率下的类别被合并为一个新的类别,并给予一个合理的标识,如other。
3>合并变量的类别使得某些预测力指标最大化。
下面是采用决策树的方法,对于有12个类别的某个feature,首先把所有的看成一个分组,然后找出最优的二元分割方法,具体见《信用风险评分卡研究》的P92。
这里写图片描述

还有其他的一些降低基数的指标。

这里写图片描述

  • 连续变量的分段:

连续变量必须分段,为了方便构建打分卡,两种方法:等距分段和最优分段。
等距分段是指分段的区间是一样的,比如客户年龄以10岁为间隔分段。
最优分段是使得该变量的预测能力指标得到优化,相当于名义变量降低基数的最优分群。
如下是采用决策树的方法,先规定最小分段的规模,然后进行初始的等距分段(取值顺序保

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值