风控模型稳定性指标PSI

群体稳定性指标

是衡量样本变化所产生的偏移量的一种重要指标,通常用来衡量样本的稳定程度,比如样本在两个月份之间的变化是否稳定。

也可以用来衡量模型稳定度。通常用作模型效果监测。

由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的样本,可以用稳定性测试。PSI可以衡量测试样本及模型开发样本评分的分布差异,为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有显著变化。

 

计算公式

                                                       psi = sum((实际占比-预期占比)* ln(实际占比/预期占比))

举个例子解释下,比如训练一个logistic回归模型,预测时候会有个类概率输出,p。在你的测试数据集(旧数据)上的输出设定为p1,将它的概率值从小到大排序后将数据集10等分(每组样本数一样,此为等宽分组),计算每等分组的最大最小预测的类概率值。现在你用这个模型去对新的样本进行预测,预测结果叫p2,利用刚才在测试数据集上得到的10等分每等分的上下界。按p2将新样本划分为10分(不一定等分了哦)。实际占比就是新样本通过p2落在p1划分出来的每等分界限内的占比,预期占比就是测试数据集上各等分样本的占比。意义就是如果模型更稳定,那么在新的数据上预测所得类概率应该更建模分布一致,这样落在建模数据集所得的类概率所划分的等分区间上的样本占比应该和建模时一样,否则说明模型变化,一般来自预测变量结构变化。

 

PSI实际应用范例:

1)样本外测试

针对不同的样本测试一下模型稳定度,比如训练集与测试集,也能看出模型的训练情况。我理解是看出模型的方差情况。

2)时间外测试

测试基准日和建模基准日相隔越远,测试样本的风险特征和建模样本的差异可能就越大,因此PSI值通常较高。至此也可以看出模型建的时间太长了,是不是需要重新用新样本建模了。

http://www.mamicode.com/info-detail-2307541.html

https://blog.csdn.net/weixin_39718665/article/details/79198512

https://zhuanlan.zhihu.com/p/157613529

PSI < 0.1 : 变化不太显著

0.1 < PSI < 0.25 :表示有比较显著的变化

PSI > 0.25 : 表示变化剧烈,需要特殊关注

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值