风控模型特征重要性与稳定性的分析|基于python的实操演示(示例Toad库)

在上班的第七天后,各位风控人终于迎来了国庆后的第一个周末!
常规化模型开发过程中,模型开发阶段和模型上线调用阶段的数据的使用逻辑的流程如下:
在这里插入图片描述

在以上的开发阶段中,我们最绕不开的就是特征的选择开发与选择,在本周较早时间,我们给大家讲解了特征筛选的内容:
→_→风控模型开发的特征选择与常用数据源介绍

今天我们再跟大家讲解特征的稳定性与重要性分析。
①特征稳定性分析
PSI(群体稳定性指标指标):PSI反映了不同样本之间在各分数段的分布稳定性,在建模中,我们常用来筛选特征变量、评估模型稳定性。
在这里插入图片描述

【方法】我们通过对所有特征逐月psi的计算,就可以初步剔除分布变化较大的特征(阈值可以放宽设在0.15~0.2)。
若建模样本集按时间划分训练集和测试集,可以以训练集的各个特征作为base,用测试集与训练集进行比较计算所有特征psi,进行筛选;
或者,将样本逐月划分,以第一个月作为base,之后每个月与第一个月进行比较计算逐月的psi,再计算各个特征在所有月份psi的均值(最大值),进行筛选;
特征稳定性,是风控特征分析中最重要的指标之一,各位风控人必须掌握的内容。

②特征重要性分析
IV(Information Value):指特征的信息量,用来衡量特征的预测能力。
在这里插入图片描述

关于IV的评价,可以参考一下指标:
在这里插入图片描述

关于特征重要性,就不得不提到另一个指标WOE

【定义】 WOE(Weight of Evidence)叫做证据权重:WOE是对原始自变量的一种编码形式,要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱)。
这里分箱可以是等频/固定点划分/监督分箱(后期会详细说明分箱及weo的使用),等总体上对IV计算的影响不大。
分箱后每一箱的WOE的公式就是:WOE=ln(坏客户占比/好客户占比)×100%
【计算】
(1)特征分箱:连续型变量,可以选择等频、等距,或者自定义间隔;离散型变量,如果分箱太多,则进行分箱合并。
(2)统计每个分箱里的好坏人数(bin_bads)和人数(bin_goods)。
(3)分别除以总的坏人数和总好人数,得到每个分箱内的坏客户占比和好客户占比。
(4)计算每个分箱里的woe_i。
(5)计算每个分箱里的IV,最终求和,即得到最终的IV

我们通过变量描述统计(缺失率/唯一值/分布占比)、变量稳定性PSI、变量区分度IV,以及各个指标的筛选阈值,就可以初步完成特征的筛选:
在这里插入图片描述

关于以上模型特征稳定性与稳定性的内容,我们关注的不仅仅是公式的计算方式,指标是死的,而业务是一直在变动的。
比如客群未变的前提下,客户发生了等级滑坡,或者模型中客群的分级出现变动时候,这些指标又应该如何调整跟优化呢?所以以不变应万变,真正学会这些指标背后的逻辑才是最重要的内容。
课程——《风控模型开放的特征选择》
课程不仅仅是理论性的内容讲解,我们也会提供相关的代码和数据集给到大家实操。
【代码参考部分如下】
利用第三方toad库 的IV函数计算特征iv值,一行命令即可对dataframe的所有特征iv进行初步计算。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

~原创文章

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值