在使用逻辑回归、决策树等模型算法构建分类模型时,经常需要对特征变量进行筛选。因为有时可能会获得100多个候选特征变量,通常不会直接把这些特征变量放到模型中去进行拟合训练,而是从这些特征变量中挑选一些放进模型,构成入模变量列表。那么该如何挑选入模变量呢?挑选入模变量需要考虑很多因素,如变量的预测能力、简单性(容易生成和使用)、可解释性等。其中最主要的衡量标准是变量的预测能力,对分类模型来说,即希望变量具有较好的特征区分度,可以较准确地将样本进行分类。WOE值和IV值就是这样的指标,它们可以用来衡量特征变量的预测能力,或者说特征变量的特征区分度,类似的指标还有基尼系数和信息增益
注意,只是针对二分类
WOE值
IV值
代码抽象出一个函数
用于计算IV值