评分卡——WOE和IV

最新推荐文章于 2022-04-13 11:01:42 发布

mttian

最新推荐文章于 2022-04-13 11:01:42 发布

阅读量1.2k

点赞数 1

分类专栏：风控

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zstj_tian/article/details/93036154

版权

在对变量进行分箱之后，我们需要进一步对分箱后的特征，进行woe编码处理，下面我们来讲一下woe的逻辑及实际的具体情况

一、WOE

WOE的全称是“Weight of Evidence”，即证据权重。WOE是对原始自变量的一种编码形式。

要对一个变量进行WOE编码，需要首先把这个变量进行分组处理（也叫离散化、分箱等等，说的都是一个意思）。分组后，对于第i组，WOE的计算公式如下：

其中，pyi是这个组中响应客户（风险模型中，对应的是违约客户，总之，指的是模型中预测变量取值为“是”或者说1的个体）占所有样本中所有响应客户的比例，pni是这个组中未响应客户占样本中所有未响应客户的比例，#yi是这个组中响应客户的数量，#ni是这个组中未响应客户的数量，#yT是样本中所有响应客户的数量，#nT是样本中所有未响应客户的数量。

从这个公式中我们可以体会到，WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。

对这个公式做一个简单变换，可以得到：

变换以后我们可以看出，WOE也可以这么理解，他表示的是当前这个组中响应的客户和未响应客户的比值，和所有样本中这个比值的差异。这个差异是用这两个比值的比值，再取对数来表示的。WOE越大，这种差异越大，这个分组里的样本响应的可能性就越大，WOE越小，差异越小，这个分组里的样本响应的可能性就越小。

二、IV

有了前面的介绍，我们可以正式给出IV的计算公式。对于一个分组后的变量，第i 组的WOE前面已经介绍过，是这样计算的：

同样，对于分组i，也会有一个对应的IV值，计算公式如下：

有了一个变量各分组的IV值，我们就可以计算整个变量的IV值，方法很简单，就是把各分组的IV相加：

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
评分卡——WOE和IV

在对变量进行分箱之后，我们需要进一步对分箱后的特征，进行woe编码处理，下面我们来讲一下woe的逻辑及实际的具体情况一、WOEWOE的全称是“Weight of Evidence”，即证据权重。WOE是对原始自变量的一种编码形式。要对一个变量进行WOE编码，需要首先把这个变量进行分组处理（也叫离散化、分箱等等，说的都是一个意思）。分组后，对于第i组，WOE的计算公式如下：其中，...
复制链接

扫一扫

专栏目录

mttian CSDN认证博客专家 CSDN认证企业博客

码龄8年

1: 原创

31万+: 周排名

176万+: 总排名

1万+: 访问

: 等级

197: 积分

31: 粉丝

14: 获赞

0: 评论

99: 收藏

私信

关注

热门文章

分类专栏

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。