风控扫盲–指标
在数据分析、数据挖掘的求职过程中,有不同的业务背景,其中风控是很重要的一块,在这里记录一下基本的知识点,虽然比较皮毛,但是最为一个基本了解,做到在面试的时候不至于名词都没听说过。
参考整理自知乎大佬https://zhuanlan.zhihu.com/p/79682292
PSI指标
【公式】:
PSI
=
∑
i
=
1
n
(
实
际
占
比
−
预
期
占
比
)
∗
ln
(
实
际
占
比
/
预
期
占
比
)
\text {PSI} = \sum_{i=1}^{n} (实际占比-预期占比) * \ln (实际占比/预期占比)
PSI=i=1∑n(实际占比−预期占比)∗ln(实际占比/预期占比)
【计算方式】:
- step1:将变量预期分布(训练样本)进行分箱(binning)离散化,统计各个分箱里的样本占比。
- step2: 按相同分箱区间,对实际分布(验证样本)统计各分箱内的样本占比。
- step3:计 算各分箱内的A - E和Ln(A / E),计算index = (实际占比 - 预期占比)* ln(实际占比 / 预期占比) 。
- step4: 将各分箱的index进行求和,即得到最终的PSI。
PSI数值越小,两个分布之间的差异就越小,代表越稳定。
【意义】:
反映了验证样本在各分数段的分布与建模样本分布的稳定性。在建模中,我们常用来筛选特征变量、评估模型稳定性。
KS指标
【公式】
K
S
=
m
a
x
{
∣
c
u
m
(
b
a
d
_
r
a
t
e
)
−
c
u
m
(
g
o
o
d
_
r
a
t
e
)
∣
}
KS=max\{ |cum(bad\_rate)-cum(good\_rate)|\}
KS=max{∣cum(bad_rate)−cum(good_rate)∣}
或者
K
S
=
m
a
x
(
∣
t
p
r
−
f
p
r
∣
)
KS=max(|tpr-fpr|)
KS=max(∣tpr−fpr∣)
【计算方式】
- step 1. 对变量进行分箱(binning),可以选择等频、等距,或者自定义距离。
- step 2. 计算每个分箱区间的好账户数(goods)和坏账户数(bads)。
- step 3. 计算每个分箱区间的累计好账户数占总好账户数比率(cum_good_rate)和累计坏账户数占总坏账户数比率(cum_bad_rate)。
- step 4. 计算每个分箱区间累计坏账户占比与累计好账户占比差的绝对值,得到KS曲线。
- step 5. 在这些绝对值中取最大值,得到此变量最终的KS值。
KS值的取值范围是[0,1],一般习惯乘以100%。通常来说,KS越大,表明正负样本区分程度越好。
【意义】
KS指标倾向于从概率角度衡量正负样本分布之间的差异。
WOE与IV
【公式】
【计算方法】
- step 1. 对于连续型变量,进行分箱(binning)。
- step 2. 统计每个分箱里的好人数(bin_goods)和坏人数(bin_bads)。
- step 3. 分别除以总的好人数(total_goods)和坏人数(total_bads),得到每个分箱内的边际好人占比(margin_good_rate)和边际坏人占比(margin_bad_rate)。
- step 4. 计算每个分箱里的WOE
- step 5. 检查每个分箱(除null分箱外)里woe值是否满足单调性,若不满足,返回step1。注意⚠️:null分箱由于有明确的业务解释,因此不需要考虑满足单调性。
- step 6. 计算每个分箱里的IV,最终求和,即得到最终的IV。 备注:好人 = 正常用户,坏人 = 逾期用户
【意义】
WOE:处理缺失值和异常值、特征变换、建立评分卡模型;
IV:衡量特征的预测能力。
总结
指标 | 公式 | 计算方式 | 意义 |
---|---|---|---|
PSI | ( A − E ) ln ( A / E ) (A-E)\ln(A/E) (A−E)ln(A/E) | 分箱计算,汇总 | 建模样本与验证和样本分布区分程度,越小越好,衡量稳定性 |
KS | max ( a b s ( T P R − F P R ) ) \max(abs(TPR-FPR)) max(abs(TPR−FPR)) | 全局 | 好样本与坏样本的模型区分程度,越大越好 |
WOE | ln ( P b a d / P g o o d ) \ln (P_{bad}/P_{good}) ln(Pbad/Pgood) | 分箱计算,汇总 | 处理缺失值异常值、特征变换、建立评分卡 |
IV | ( P b a d − P g o o d ) ∗ ln ( P b a d / P g o o d ) (P_{bad}-P_{good})*\ln (P_{bad}/P_{good}) (Pbad−Pgood)∗ln(Pbad/Pgood) | 分箱计算,汇总 | 好样本与坏样本的分布区分程度,越大越好,衡量预测能力 |