风控-评分卡之woe转换

WOE(Weight of Evidence)即证据权重,可以将logistic回归模型转化为标准评分卡格式,WOE是对原始自变量的一种编码形式,要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱)。
WOE的公式就是:WOE=ln(好客户占比/坏客户占比)×100%=优势比
下面举例说明:

woe计算


我们把这个变量离散化为了4个分段:<100元,[100,200),[200,500),>=500元,并分别计算了每组的woe值,重计算数据可知:

 

  • 当前分组中,响应的比例越大,WOE值越大
  • 当前分组WOE的正负,由当前分组响应和未响应的比例,与样本整体响应和未响应的比例的大小关系决定,当前分组的比例小于样本整体比例时,WOE为负,当前分组的比例大于整体比例时,WOE为正,当前分组的比例和整体比例相等时,WOE为0。

为什么做woe转换

首先明确woe转换并不一定能显著提高模型质量,建立评分卡也可以不采用woe,这种情况下logistic回归需要处理更大数量的自变量,尽管这样会增加建模的复杂性,但最终得到的评分卡都是一样的。即便如此,woe转换依旧有很多的优势:

  1. woe能反映自变量的贡献情况
    自变量内部WOE值的变异(波动)情况,结合模型拟合出的系数,构造出各个自变量的贡献率及相对重要性。一般地,系数越大,woe的方差越大,则自变量的贡献率越大。
  2. 标准化功能
    WOE编码之后,自变量其实具备了某种标准化的性质,也就是说,自变量内部的各个取值之间都可以直接进行比较(WOE之间的比较),而不同自变量之间的各种取值也可以通过WOE进行直接的比较。
  3. 对异常值不敏感
    很多极值变量通过WOE可以变为非异常值,很多频次较少的变量也可以通过woe转换进行合并。

通过woe转化,极大的提高了数据的可理解性,这对评分卡模型很重要。WOE其实描述了变量当前这个分组,对判断个体是否会响应(或者说属于哪个类)所起到影响方向和大小,当WOE为正时,变量当前取值对判断个体是否会响应起到的正向的影响,当WOE为负时,起到了负向影响。而WOE值的大小,则是这个影响的大小的体现。



作者:数据小黑升值记
链接:https://www.jianshu.com/p/fd8b0bef8ea5
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值