风控扫盲--指标

风控扫盲–指标

在数据分析、数据挖掘的求职过程中,有不同的业务背景,其中风控是很重要的一块,在这里记录一下基本的知识点,虽然比较皮毛,但是最为一个基本了解,做到在面试的时候不至于名词都没听说过。

参考整理自知乎大佬https://zhuanlan.zhihu.com/p/79682292


PSI指标

【公式】:
PSI = ∑ i = 1 n ( 实 际 占 比 − 预 期 占 比 ) ∗ ln ⁡ ( 实 际 占 比 / 预 期 占 比 ) \text {PSI} = \sum_{i=1}^{n} (实际占比-预期占比) * \ln (实际占比/预期占比) PSI=i=1n()ln(/)
【计算方式】:

  • step1:将变量预期分布(训练样本)进行分箱(binning)离散化,统计各个分箱里的样本占比。
  • step2: 按相同分箱区间,对实际分布(验证样本)统计各分箱内的样本占比
  • step3:计 算各分箱内的A - ELn(A / E),计算index = (实际占比 - 预期占比)* ln(实际占比 / 预期占比) 。
  • step4: 将各分箱的index进行求和,即得到最终的PSI。

PSI数值越小,两个分布之间的差异就越小,代表越稳定。

【意义】:

反映了验证样本在各分数段的分布与建模样本分布的稳定性。在建模中,我们常用来筛选特征变量、评估模型稳定性

KS指标

【公式】
K S = m a x { ∣ c u m ( b a d _ r a t e ) − c u m ( g o o d _ r a t e ) ∣ } KS=max\{ |cum(bad\_rate)-cum(good\_rate)|\} KS=max{cum(bad_rate)cum(good_rate)}
或者
K S = m a x ( ∣ t p r − f p r ∣ ) KS=max(|tpr-fpr|) KS=max(tprfpr)
【计算方式】

  • step 1. 对变量进行分箱(binning),可以选择等频、等距,或者自定义距离。
  • step 2. 计算每个分箱区间的好账户数(goods)和坏账户数(bads)。
  • step 3. 计算每个分箱区间的累计好账户数占总好账户数比率(cum_good_rate)和累计坏账户数占总坏账户数比率(cum_bad_rate)。
  • step 4. 计算每个分箱区间累计坏账户占比与累计好账户占比差的绝对值,得到KS曲线。
  • step 5. 在这些绝对值中取最大值,得到此变量最终的KS值。

img

KS值的取值范围是[0,1],一般习惯乘以100%。通常来说,KS越大,表明正负样本区分程度越好

img

【意义】

KS指标倾向于从概率角度衡量正负样本分布之间的差异。

WOE与IV

【公式】
在这里插入图片描述
【计算方法】

  • step 1. 对于连续型变量,进行分箱(binning)。
  • step 2. 统计每个分箱里的好人数(bin_goods)和坏人数(bin_bads)。
  • step 3. 分别除以总的好人数(total_goods)和坏人数(total_bads),得到每个分箱内的边际好人占比(margin_good_rate)和边际坏人占比(margin_bad_rate)。
  • step 4. 计算每个分箱里的WOE
  • step 5. 检查每个分箱(除null分箱外)里woe值是否满足单调性,若不满足,返回step1。注意⚠️:null分箱由于有明确的业务解释,因此不需要考虑满足单调性。
  • step 6. 计算每个分箱里的IV,最终求和,即得到最终的IV。 备注:好人 = 正常用户,坏人 = 逾期用户

img

【意义】

WOE:处理缺失值和异常值、特征变换、建立评分卡模型;

IV:衡量特征的预测能力。

Image

总结

指标公式计算方式意义
PSI ( A − E ) ln ⁡ ( A / E ) (A-E)\ln(A/E) (AE)ln(A/E)分箱计算,汇总建模样本与验证和样本分布区分程度,越小越好,衡量稳定性
KS max ⁡ ( a b s ( T P R − F P R ) ) \max(abs(TPR-FPR)) max(abs(TPRFPR))全局好样本与坏样本的模型区分程度,越大越好
WOE ln ⁡ ( P b a d / P g o o d ) \ln (P_{bad}/P_{good}) ln(Pbad/Pgood)分箱计算,汇总处理缺失值异常值、特征变换、建立评分卡
IV ( P b a d − P g o o d ) ∗ ln ⁡ ( P b a d / P g o o d ) (P_{bad}-P_{good})*\ln (P_{bad}/P_{good}) (PbadPgood)ln(Pbad/Pgood)分箱计算,汇总好样本与坏样本的分布区分程度,越大越好,衡量预测能力
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值