风控中所涉及的重要指标全解析

今天带各位风控从业者了解一下风控的一些基础概念。
一.贷前相关指标名词:
Badrate
坏人占比

MOB (month on book)
开卡时长

账龄
Vintage分析法是一种动态分析法,用来分析不同时期资产的表现情况,它以贷款的账龄为基础,观察每批放 款贷后1,2,3…N个月时的逾期情况。

Roll-Rate
滚动率,分析追溯贷款状态之间每月的迁移情况,展示了每批贷款进入下一个逾期状态的概率。

ENR
应收贷款余额包含剩余本金、当期应收未收的利息及管理费

ANR (last 12)
平均贷款余额(过去十二个月)最近十二个月应收贷款余额的平均值

GCO
总坏账金额包含坏账本金、利息和罚息等;安信认列逾期九十天以上之逾期贷款为坏帳;

Recovery
Recovery坏账回收金额坏账核销后回收的金额

DPD
Day Past Due逾期天数超过还款日仍未还款之数天数

Due day
Due day应还款日到期还款日

IIP
Individual Impairment Provision贷款净损失
总坏账金额 -坏账回收金额

PIP
Portfolio Impairment Provision拨备计提

LI
Loan Impairment贷款减值贷款净损失 +拨备计提

GCO%ANR
总贷款损失占平均贷款余额的比率用来观察某一时点,整体资产或某一时段之放款或某一获客渠道或某一产品,其坏帳与过去十二个月之平均贷款余额之比例,使用过去十二个月之放款余额是为免近期新增贷款波动之影响,亦因为小额贷款之坏帳发生高峰期由六个月至十二个月;

IIP%ANR
贷款净损失占平均贷款余额的比率用来观察某一时点,坏帳净损失与过去十二个月之平均贷款余额之比例

PIP%ANR
拨备计提占平均贷款余额的比率用来观察某一时点,拨备计提与过去十二个月之平均贷款余额之比例

LI%ANR
贷款减值占平均贷款余额的比率用来观察某一时点,贷款减值与过去十二个月之平均贷款余额之比例;本指標及上列各与平均贷款余额的比率之指標,连续将六个月数据用线图表示,可观察或预估未未三个月之趋势。

Coincident 30+DPD%
当前逾期30天以上的ENR占当前总ENR的比率本指標以月为时间轴,测量个别或整体之逾放邹势

Diagonal Current to C/O
指从M0流入C/O的比率 c

30DPD/GCO% at 6 MOB
MOB6以内的逾期超过30天或坏账的占比,衡量资产被诈骗的状况;

New Booking
新放款

Booking amount
放款金额

Average loan amount
件均放款金额

Approve Rate
批核率批核案件数/(批核案件数+拒绝案件数)

Cancellation Rate
退单率退单案件数/(批核案件数+拒绝案件数+退单案件数)

Current
当前未逾期正常还款且当期未逾期;Current ~M3 等指標是用作检视资产之逾期状况,亦用作催收工作之目標;

M0
当前未逾期正常还款且当期未逾期

M1
逾期1-29天逾期1-29天之户数或放款余额

M2
逾期30-59天逾期30-59天户数或放款余额

M3
逾期60-89天逾期60-89天户数或放款余额

FPD
First Payment Default首期还款逾期,第一期还款马上逾期,这指標亦会用来评估被诈骗之状况,安信以放款后首两期即逾期及后变为坏帳之案件,认定为被诈骗之案件。

Flow Rate%
转化率,一般指M0流入M1,M1流入M2、M2流入M3以及M3流入WO的比率

二.贷中相关指标名词:
Retained Rate
留存率,实际分为人头留存率和余额留存率

Withdrawal Rate
提现率,额度提现使用的客户占比

Credit Utilization Rate
额度使用率

Reloan Rate
“复借率指标使用场景主要是循环贷产品,表现是客户在完成往期的借款后立刻有借出新贷款,这种情况往往与借旧还新现象挂钩。当某客户长期历史借贷复借率较高时,从策略角度建议分析其多头借贷数、评估当下还款能力,判断是否会在下一笔借贷时发生违约逾期的风险。”

三.贷后相关指标名词:
催收
催收是风控的最终手段。这个环节可以产生很多对模型有帮助的数据。比如催收记录的文字描述、触达率、欺诈 标签等等。并且坏账的客户会被列入黑名单。其实只要是能被催回来的,都不是坏账。但是很多公司为了保险起 见,逾期超过一定时间的客户,即使被催回来,也会被拉入黑名单。这里主要的算法就是催收模型相关的,可能 是监督、无监督算法。也有基于社交网络算法构造的失联模型等等。

CPD
客户逾期天数,与DPD相似。贷后管理的专有名词。历史经验设定逾期金额在50元以上的客户,才有价值通过人工进行催收。所以CPD是指贷后管理中,逾期金额在50元以上的客户的逾期天数。CPD的值取决于最早一期未还清的时间点。

Outbound/Inbound
电话呼出/电话呼入

RPC
Right Public Contact,指有效的联系人,通过电话催收可以找到客户本人或直属亲属。

PTP
Promise To Pay,通过电话催收,客户承诺在一定期限内归还一定数额的欠款,称之为承诺还款。值得注意的是,只有在RPC有效标识之后,才可以有PTP标识。

In_PTP
通过电话催收,客户承诺在一定期限内归还一定数额的欠款。该周期称为P期,一般P期为T+3,In_PTP表示客户是否在P期内,标识为0或1。

V_PTP
有效PTP,即客户承诺还款后,处于在P期内有效未还款的客户。

KP
Kept Promise,K_PTP,客户按照约定还款。

BP
Broken Promise,BP,承诺到期内,客户未按约定还款。

RPC Ratio
联系RPC合同数/接通合同数

PTP Ratio
承诺还款合同数/联系到RPC的合同数

KPTP Ratio
实际还款合同数/承诺还款合同数

四.模型相关
建模的概念
建模就是构造一个数学公式,能将我们手上有的数据输入进去,通过计算得到一些预测出来的结果。 比如大家初中/高中学习的线性回归,就是最简单的建模过程。 风控模型最原始的思路就是输入一个用户的信息,得到这个人是 “会还钱” 还是 “不会还钱”。这就是个二分类问 题。 而评分卡模型其实就是希望能将一系列的个人信息输入模型,然后得到一个用户的还款概率。概率越大,评分越 高,越容易还钱。概率越小,评分越低,越容易跑路。典型例子就是芝麻信用分。 那为什么一定要应射成某种分数呢?
模型里有分数刻度的好处
我们可以随时根据业务需求调整通过率 更容易向用户解释他的信用评级 更容易向领导解释一个用户被拒绝的原因 更容易监控一个模型的效果

Benchmark"
基准。每个版本的新模型都要与一个线上的基准模型或规则集做效果比对"
IV
“information value 信息值。一般取值区间(0,1)。该值用来表示某个变量的预测能力,越大越好。通常IV值0.3以上的,预测能力较高。IV=SUM((B_P-G_P)*LN(B_P/G_P))”

K-S
“klmogrov-smirnov,这是一个区分度指标。所谓区分度,是指模型对于好坏客户的辨识能力,区分力越强,模型准确度越高,误判的几率越低。K-S值越大越好,一般0.6以上用户解释能力很高。KS=Max(RETAIN_BAD_P-RETAIN_GOOD_P)”

PSI
"population stability index,稳定度指标,越低越稳定。用于比较当前客群与模型开发样本客群差异程度,评价模型的效果是否符合预期。

Training Sample
“建模样本,用来训练模型的一组有表现的用户数据。配合该样本还有Validation sample(验证样本),两个样本都取同样的用户维度,通常要使用建模样本训练出的模型在验证样本上进行验证。”
WOE
“weight of ecidence,证据权数,取值区间(-1,1)。违约件占比高于正常件,WOE为负数。绝对值越高,表明该组因子区分好坏客户的能力越强WOE=LN(B_P/G_P)”

Bad Capture Rate
“坏用户捕获率。这是评价模型效果的一个指标,比率越高越好。”

Lift
模型提升度,表示使用模型比未使用的区分效果提升能力

Population
All Population,全体样本用户,包含建模样本与验证样本。

Variable
“变量名。每个模型都依赖许多的基础变量和衍生变量作为入参。变量的命名需要符合规范,易于理解和扩充。”

CORR
“相关系数。Corr的绝对值越接近1,则线性相关程度越高,越接近0,则相关程度越低。”

AUC
“Area Under Curve,定义为ROC曲线下面积,通常大于0.5小于1。体现模型预测精准度指标之一”

GINI
同KS指标一样,都是体现模型区分能力的指标

AR
“Accuracy Rate,AR=2AUC-1,表征模型的区分能力,同Gini指标计算结果一致”

五.其他比较重要名词解析数据采集
数据采集会涉及到埋点和爬虫技术,基本上业内的数据都大同小异。免费的运营商数据、和安卓可爬的手机内部 信息(app名称,手机设备信息,部分app内容信息)、以及收费的征信数据、各种信息校验、外部黑名单之类 的。还有一些特定场景的现金贷和消费金融会有自有的数据可供使用,比如阿里京东自己的电商数据、滴滴的司 机数据、顺丰中通的快递数据等等。由于不涉及爬虫,这一块主要让大家理解一下都可以做些什么变量。
反欺诈相关
反欺诈引擎主要包括两个部分,反欺诈规则和反欺诈模型。这里其实很少使用传统监督模型。涉及到的算法以无 监督算法、社交网络算法、深度学习居多。大部分的公司都使用的是反欺诈规则,这也是主要提倡的。一个原因 是欺诈标签不好得到,很难做监督学习的训练。还有一个原因是传统的机器学习对欺诈的检测效果很差。因为所 谓欺诈,就是一些黑产或者个人将自己包装成信用良好的用户,进行借款后失联或者拒不还钱。既然都伪装成了 好客户,基于风控人员主观思考建立的统计模型,又怎么可能有好的效果。但是经过一段时间的实验,这一块其 实用深度学习反而有意想不到的效果,基本思想可以理解为,简单评分卡解释性强,带来的坏处就是可以被逆向 破解,而复杂模型的黑箱操作虽然解释性差,却有一定的安全性,尤其是搭配了在线学习等动态手段之后。反向 破解的成本极高。此外还有很多算法诸如异常检测和知识图谱都在这一块有所应用。
规则引擎
规则引擎其实就是我们常说的策略,主要通过数据分析、挖掘手段以及一些监督、无监督算法,得到不同字段、 各个区间的坏账率(badrate),找到最佳分段区间,然后得到筛选后信用较好的一批特定人群进行放款。这一块 主要有单变量分析和一些关键指标的计算和监控,比如Rollrate、PSI、KS、AUC,等等。通常规则和模型是组 合使用的,尤其在反欺诈场景中。
评分卡
A Card
“Application scorecard 申请评分卡,对授信阶段提交的资料赋值的模型结果规则”

B Card
“Behavior scorecard 行为评分卡,对贷后可以收集到的用户信息进行评分的规则”

C Card
“Collection Scorecard 催收评分卡,对已逾期用户未来出催能力做判断的评分规则”

F Card
“Fraud Scorecard,反欺诈评分卡,常针对申请阶段进行反欺诈用户识别”

风控系统
MIS
Management Information System 管理信息系统

Ser
"service的简写。“.ser” 是决策引擎工具SMG3的工程文件格式,故用 ser代指决策引擎规则版本

"RBP
Risk-based Pricing,风险定价

风控指标虽多,但核心的还是在M0、M1、Mn…MOB、Vintage,Badrate等少数的几个核心指标,核心指标不多但难背后的业务逻辑。结合实际的业务去理解这些指标,也是教研组想对大家说的话。

~原创文章

end

  • 2
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
IV(Information Value)是指标筛选中常用的评价指标,用于衡量自变量对于因变量的影响程度。在风险控制中,IV指标常用于评估某个特征对于坏客户的区分度,以及评估特征对于建立预测模型的贡献度。 IV值的计算公式如下: $$IV=\sum_{i=1}^{k}(\frac{good\%_i-bad\%_i}{100}\times WOE_i)$$ 其中,$k$ 表示特征取值的个数,$good\%_i$ 表示第 $i$ 个取值下好客户的占比,$bad\%_i$ 表示第 $i$ 个取值下坏客户的占比,$WOE_i$ 表示第 $i$ 个取值下的WOE值,可以通过下面的公式计算: $$WOE_i=ln(\frac{good\%_i}{bad\%_i})$$ 在 Python 中可以通过以下代码实现 IV 值的计算: ``` python def calc_iv(df, feature, target): lst = [] cols = ['Variable', 'Value', 'All', 'Good', 'Bad'] for i in range(df[feature].nunique()): val = list(df[feature].unique())[i] lst.append([feature, val, len(df[df[feature] == val]), len(df[(df[feature] == val) & (df[target] == 0)]), len(df[(df[feature] == val) & (df[target] == 1)])]) data = pd.DataFrame(lst, columns=cols) data = data[data['Bad'] > 0] data['All_Distr'] = data['All'] / data['All'].sum() data['Good_Distr'] = data['Good'] / data['Good'].sum() data['Bad_Distr'] = data['Bad'] / data['Bad'].sum() data['WoE'] = np.log(data['Good_Distr'] / data['Bad_Distr']) data['IV'] = (data['Good_Distr'] - data['Bad_Distr']) * data['WoE'] data['Variable'] = feature return data['IV'].sum() ``` 其中,`df` 表示数据集,`feature` 表示特征列名,`target` 表示目标列名。函数返回计算得到的 IV 值。需要注意的是,在计算 IV 值时,需要对特征的取值进行分组,每个组内至少包含一定数量的坏客户,避免计算时分母为零的情况。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值