风控扫盲--指标

最新推荐文章于 2024-03-29 10:05:32 发布

dancingmind

最新推荐文章于 2024-03-29 10:05:32 发布

阅读量669

点赞数 1

分类专栏：金融风控

本文链接：https://blog.csdn.net/weixin_46073069/article/details/109673677

版权

2 篇文章 0 订阅

订阅专栏

风控扫盲–指标

在数据分析、数据挖掘的求职过程中，有不同的业务背景，其中风控是很重要的一块，在这里记录一下基本的知识点，虽然比较皮毛，但是最为一个基本了解，做到在面试的时候不至于名词都没听说过。

参考整理自知乎大佬https://zhuanlan.zhihu.com/p/79682292

【公式】：
$\text {PSI} = \sum_{i=1}^{n} (实际占比-预期占比) * \ln (实际占比/预期占比)$
【计算方式】：

step1：将变量预期分布（训练样本）进行分箱（binning）离散化，统计各个分箱里的样本占比。
step2: 按相同分箱区间，对实际分布（验证样本）统计各分箱内的样本占比。
step3:计算各分箱内的A - E和Ln(A / E)，计算index = (实际占比 - 预期占比）* ln(实际占比 / 预期占比) 。
step4: 将各分箱的index进行求和，即得到最终的PSI。

PSI数值越小，两个分布之间的差异就越小，代表越稳定。

【意义】：

反映了验证样本在各分数段的分布与建模样本分布的稳定性。在建模中，我们常用来筛选特征变量、评估模型稳定性。

【公式】
$KS=max\{ |cum(bad\_rate)-cum(good\_rate)|\}$
或者
$K S = m a x (∣ t p r - f p r ∣)$
【计算方式】

step 1. 对变量进行分箱（binning），可以选择等频、等距，或者自定义距离。
step 2. 计算每个分箱区间的好账户数(goods)和坏账户数(bads)。
step 3. 计算每个分箱区间的累计好账户数占总好账户数比率(cum_good_rate)和累计坏账户数占总坏账户数比率(cum_bad_rate)。
step 4. 计算每个分箱区间累计坏账户占比与累计好账户占比差的绝对值，得到KS曲线。
step 5. 在这些绝对值中取最大值，得到此变量最终的KS值。

KS值的取值范围是[0，1]，一般习惯乘以100%。通常来说，KS越大，表明正负样本区分程度越好。

【意义】

KS指标倾向于从概率角度衡量正负样本分布之间的差异。

【公式】
在这里插入图片描述
【计算方法】

step 1. 对于连续型变量，进行分箱（binning）。
step 2. 统计每个分箱里的好人数(bin_goods)和坏人数(bin_bads)。
step 3. 分别除以总的好人数(total_goods)和坏人数(total_bads)，得到每个分箱内的边际好人占比(margin_good_rate)和边际坏人占比(margin_bad_rate)。
step 4. 计算每个分箱里的WOE
step 5. 检查每个分箱（除null分箱外）里woe值是否满足单调性，若不满足，返回step1。注意⚠️：null分箱由于有明确的业务解释，因此不需要考虑满足单调性。
step 6. 计算每个分箱里的IV，最终求和，即得到最终的IV。备注：好人 = 正常用户，坏人 = 逾期用户

【意义】

WOE：处理缺失值和异常值、特征变换、建立评分卡模型；

IV：衡量特征的预测能力。

指标	公式	计算方式	意义
PSI	$(A-E)\ln(A/E)$	分箱计算，汇总	建模样本与验证和样本分布区分程度，越小越好，衡量稳定性
KS	$\max(abs(TPR-FPR))$	全局	好样本与坏样本的模型区分程度，越大越好
WOE	$ln (P_{bad}/P_{good})$	分箱计算，汇总	处理缺失值异常值、特征变换、建立评分卡
IV	$P_{bad}-P_{good})*\ln (P_{bad}/P_{good})$	分箱计算，汇总	好样本与坏样本的分布区分程度，越大越好，衡量预测能力

关注