数据准备非常重要:
1.从不同的渠道收集数据;
2.清理数据中意外错误或被认为是极端值的取值;
3.生成衍生的变量(feature)。
在数据处理过程,需要进行的操作:
- 当名义变量的取值大于12个,考虑降低基数:
1>将相同含义的变量合并;
2>出现频率下的类别被合并为一个新的类别,并给予一个合理的标识,如other。
3>合并变量的类别使得某些预测力指标最大化。
下面是采用决策树的方法,对于有12个类别的某个feature,首先把所有的看成一个分组,然后找出最优的二元分割方法,具体见《信用风险评分卡研究》的P92。
还有其他的一些降低基数的指标。
- 连续变量的分段:
连续变量必须分段,为了方便构建打分卡,两种方法:等距分段和最优分段。
等距分段是指分段的区间是一样的,比如客户年龄以10岁为间隔分段。
最优分段是使得该变量的预测能力指标得到优化,相当于名义变量降低基数的最优分群。
如下是采用决策树的方法,先规定最小分段的规模,然后进行初始的等距分段(取值顺序保