第六篇:信贷风控模型上线后评估思路

1、基本情况

(1)模型分申请人数分布

(2)模型分通过人数分布

(3)不同层的通过率监控

2、主评分——KS和PSI

(1)总的KS

(2)分层的坏率lift情况----如果是有分评级的,本来就是根据坏率来分,肯定具有排序性,可以看,但是没有代表性

(3)各变量的KS-----简单看看,应该更关注变量的IV和WOE

KS值

一般来说,KS指标用于评估模型,即模型对好坏客户的区分程度。其本质是模型能够将好坏客户区分开的能力。

模型KS过高也要考虑是否过拟合的问题。

一般来说,KS在0.2以上才勉强可用,风险区分效果一般。同时,KS的后期观测也相当重要,在后续监控中,KS若出现持续下降,有可能是市场发生了变化,客群发生变化,或者模型本身不够稳定,所以训练模型时训练集和验证集的对比也相当重要,两者KS差距较大,说明模型过拟合,或泛化能力不强。

KS计算可以分箱,也可以不分箱。不分箱法可得出最大且唯一的KS值,分箱算出来的KS值会小一点,而且分箱分的越细,KS越大,分箱越粗,KS越小。这一点其实在IV计算的时候也适用,分箱越细,IV值越大,因为IV和KS本质上都是在衡量好与坏两个分布之间的距离,如果分箱越多,那好人与坏人的分布差异自然就越大。

PSI:

稳定度指标:越低越稳定。用于比较当前客群与模型开发样本客群差异程度,评价模型的效果是否符合预期。PSI表示的就是按分数分档后,针对不同样本或者不同时间的样本,人数分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有显著变化。(需要能拿到建模样本或者建模文档进行比较)

PSI值

含义

<10%

无需更新模型

10%-25%

检查一下其他度量方式

>25%

需要更新模型

3、各因子变量的IV、WOE

IV值

IV计算用于筛选变量,常用来评估某变量的预测能力。其本质是从信息熵上比较好人分布和坏人分布之间的差异性,一般取值区间(0,1),该值越大越好,表示自变量的预测能力越强。通常IV值0.3以上的,预测能力较高。

IV的大小受到分箱的影响。一般在计算IV时,如果是数值变量,会选用卡方分箱(最优分箱)之后的结果;如果是类别变量,则可以用badrate编码进行降基处理后再计算IV。(在之前的评估中仅根据等频或等距分为10箱)

当特征的IV值越大,该特征的信息价值就越大,对于判断客户好坏的贡献越大,这样的特征越适合入模。

通常以IV来作为判断特征对于模型的预测能力的指标,因为WOE有正负值,而IV只会是正值。最重要的是,WOE没有体现出当前分段的个体数在总体数量中的比例,举个例子,若某个分段的WOE值很大,但是该分段的个体数占总体数量中的很小的比例,这WOE就不具备整体的代表性,因为其对整体的贡献太小,IV值也会很小。因此,使用IV值作为判断预测能力的指标。 

(IV和KS本质上都是在衡量好与坏两个分布之间的距离。IV是将好坏分布叠在一起从信息熵上比较相似程度;KS是从累积好坏分布之间的最大间隔来进行比较。那既然都是在比较分布的差异,那为什么筛选变量的时候用IV、评估模型性能的时候用KS?

IV和KS都可以用来衡量变量的预测能力和区分度,本质都是在计算好坏之间分布的差异。IV虽受到分箱的影响,但一般计算时都会采用卡方分箱,所以影响不大;KS指标有最大且唯一的值,更适用于分数这种排序性较好的变量。

关于KS和IV值的关系,当IV等于0.5的时候,KS接近30%;IV等于1的时候,KS接近40%。)

WOE(weight of evidence ,证据权数):

取值区间(-1,1)。违约件占比高于正常件,WOE为负数。绝对值越高,表名该组因子区分好坏客户的能力越强。分箱之后可以得到一系列的离散变量,需要对变量进行编码,将离散变量转化为连续变量。WOE编码是评分卡模型常用的编码方式,是一种有监督的编码方式,对于自变量第i箱的WOE值为:

WOE表示的实际上是“当前分箱中坏客户占所有坏客户的比例”和“当前分箱中好客户占所有好客户的比例”的差异。

变换后,WOE也可以理解为当前分箱中坏客户和好客户的比值,和所有样本中这个比值的差异(也就是随机的坏客户和好客户的比例)

----WOE越大,这种差异越大,当前分组里的坏客户的可能性就越大,WOE越小,差异越小,这个分组里的坏客户的可能性就越小。----但并不是越小越好

----当分箱中坏客户和好客户的比例等于随机坏客户和好客户的比值时,说明这个分箱没有预测能力,即WOE=0。

同时WOE变换常用于特征工程,当对某些特征变量进行一般都是先卡方分箱,再看是否单调、是否需要再手动调整分箱(等频或等距分箱后---待确定),发现每级分段WOE不满足单调性时(大部分为离散型变量),进行WOE变换,即采用对应每分段的WOE值替换掉特征原始值,此时该特征的分布将会是单调的。

通过WOE变换,同时保持WOE曲线具备单调性,带来的好处在于特征值与y值具备正/负相关性,例如定义坏用户为1时,特征值越大,预测为坏人的概率越高。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值