WOE(Weight of Evidence)即证据权重,可以将logistic回归模型转化为标准评分卡格式,WOE是对原始自变量的一种编码形式,要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱)。
WOE的公式就是:WOE=ln(好客户占比/坏客户占比)×100%=优势比
下面举例说明:
woe计算
我们把这个变量离散化为了4个分段:<100元,[100,200),[200,500),>=500元,并分别计算了每组的woe值,重计算数据可知:
- 当前分组中,响应的比例越大,WOE值越大
- 当前分组WOE的正负,由当前分组响应和未响应的比例,与样本整体响应和未响应的比例的大小关系决定,当前分组的比例小于样本整体比例时,WOE为负,当前分组的比例大于整体比例时,WOE为正,当前分组的比例和整体比例相等时,WOE为0。
为什么做woe转换
首先明确woe转换并不一定能显著提高模型质量,建立评分卡也可以不采用woe,这种情况下logistic回归需要处理更大数量的自变量,尽管这样会增加建模的复杂性,但最终得到的评分卡都是一样的。即便如此,woe转换依旧有很多的优势:
- woe能反映自变量的贡献情况
自变量内部WOE值的变异(波动)情况,结合模型拟合出的系数,构造出各个自变量的贡献率及相对重要性。一般地,系数越大,woe的方差越大,则自变量的贡献率越大。 - 标准化功能
WOE编码之后,自变量其实具备了某种标准化的性质,也就是说,自变量内部的各个取值之间都可以直接进行比较(WOE之间的比较),而不同自变量之间的各种取值也可以通过WOE进行直接的比较。 - 对异常值不敏感
很多极值变量通过WOE可以变为非异常值,很多频次较少的变量也可以通过woe转换进行合并。
通过woe转化,极大的提高了数据的可理解性,这对评分卡模型很重要。WOE其实描述了变量当前这个分组,对判断个体是否会响应(或者说属于哪个类)所起到影响方向和大小,当WOE为正时,变量当前取值对判断个体是否会响应起到的正向的影响,当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现。
作者:数据小黑升值记
链接:https://www.jianshu.com/p/fd8b0bef8ea5
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。