一、项目目标
本项目为某某银行零售事业部零售申请评分卡项目,通过本项目,希望实现以下目标:
- 引入先进理念和工具,进一步提升某某银行零售事业部零售信贷业务的信用风险管理的技术水平;
- 通过充分应用零售评分卡体系和发挥零售风险计量模型和工具的作用,全面推进精细化、科学化和标准化的业务运作与量化决策的零售风险管理体系建设,促进和支持某某银行零售事业部小微金融零售信贷业务快速稳健发展;
- 通过申请评分模型研究某某银行零售事业部零售信贷业务的客户特征,预测和评判申请人风险。在申请处理环节对风险进行分类,判定申请件不同的风险等级,从而决策客户能否获得批复。
本次项目需要考虑进行数据挖掘建模的业务包括但不限于:私营业主贷、车主贷、工薪贷、物业主贷、员工贷和白领贷等零售业务。评分卡开发工作结合了某某银行零售事业部的零售产品特点和业务运作模式,根据营销和风险管理要求建立申请评分卡模型并设计申请审批的风险策略,从而实现标准化的客户准入、额度计算等业务管理建议。本文档将描述申请评分模型的开发过程和结果。
二、模型设计
2.1.模型设计的要点内容
模型设计需要确定的要点包括观察期/表现期、好/坏/不确定定义以及排除规则。
2.1.1.观察期和表现期
下图显示需要数据进行模型开发的特定时间点。
观察点
在这一时间点上,账户和客户的信息被作为“当前月”信息进行提取。等同于对账户/客户进行风险评估的生产系统中的当前月。
只使用一个月作为观察点,是因为其准确地模仿生产环境,而且通常一个月内有足够的账户/客户可生成一套稳健的评分模型。在某种条件下,需要一个滚动窗口(观察期)而非一个观察点以保证充分数量的样本信息可用于评分模型开发。一个典型的例子是申请模型,一个特定月份的申请在未来产生的“坏”数据过低,必须将几个月的记录累计,从而建立有统计意义的开发样本。
表现期
表现期是对观察点上账户/客户表现进行监控的时间周期。这些帐户在表现点被分类成“好”、“坏”、“不确定”。表现期必须足够长,从而保证样本群体的稳定性。即使可获得很长时间的历史数据,还需要在完整性(有多少个坏样本需要捕捉)和数据质量之间保持平衡。若表现期设定过长,将在有限的数据可获取区间上,减少可用于样本采集的观察期,同时将难以包含近期的新帐户。
表现点
在此时间点账户可以根据其在表现期内的行为,被分类成好、坏或不确定。
2.1.2.好/坏/不确定定义
在制定好/坏定义时,一般会考虑以下多方面的因素:
- 好/坏的定义必须与某某银行零售事业部零售信贷业务的整体目标一致。
- 好/坏定义必须与建立评分卡模型的初衷一致。
- 严格的坏定义,必定会导致坏样本的减少,减少了建模可使用的数据量。过松的坏定义会导致好客户和坏客户间的界限模糊,降低评分模型的预测能力;
- 好/坏定义必须简单明确,并能实时跟踪。
- 复杂的好/坏定义可能能更准确的反映风控部门对客户的认识,但是很难从数据上自动区分。
表现将根据离散的和互斥的“好”、“坏”、“不确定”分类进行定义。好坏定义用于将账户行为特征同随后的账户表现联系起来。
好/坏定义会根据产品稍有不同。
常用于推导坏定义的主要信息项如下:
- 逾期状态(如逾期期数)
- 核销或坏账标志等
坏客户定义过后,还需要对好客户进行定义,好客户的定义同样需要与商业目标和需求一致,定义好客户一般不需要进行数据分析,一般的定义标准如下:
- 从未逾期;
- 逾期到一个向更坏情况的滚动率较低的点,比如10%。
中间客户就是不满足好、坏客户定义的非排除客户,主要包括:
- 没有充足的表现历史;
- 逾期滚动率介于好客户和坏客户之间。
2.1.3.排除规则
模型开发样本应具有群体代表性,而且必须有准确的预测信息和表现信息,从而使模型在开发时更加准确,并且可在未来进行应用。对于一些特殊类型的客户,如其行为无法预测(如:已故客户)的或帐户不适合模型参数的,将不包括在申请评分模型的模型开发中。需要特别说明,客户/账户的排除规则的定义需要在数据上予以支持。
常见的账户/客户排除原因如下:
- 账户/客户不列入模型的实施范围
- 无足够的预测信息或表现无需预测
- 表现信息不清晰以至于无法判类
综合而言,决定上述各个设计要点的常用标准如下:
- 业内最佳实践:通常个贷申请评分模型的表现窗口为12-24个月。
- 数据的临近程度:模型开发和实施的理念是用历史数据去预测未来,故越近期的数据越可以反映现在,从而预测未来,也就是模型的预测能力更强。
- 数据的代表性:统计模型是一种通过对客户排序,帮助进行业务决策的工具,而统计模型的开发是基于数据为基础,只有用于建模的数据对客户群体有一定的代表性,才可以使得所开发模型可以反映客户群体,预测其未来表现。
- 数据分布:对产品进行不同的样本窗口和好坏定义的分析,不同的分析会有不同的好/坏/不确定分布。
- 坏样本的数量和比例:要开发一个稳健的统计模型,要求坏样本量达到一定量。
- 实际业务情况:样本窗口和好坏定义可能会根据产品特点的不同而不同。
2.1.4.样本选取
建立信用评分模型的数据集一般都是非平衡数据集,不同类别数量差距很大,一般来说,坏客户的比例显著小于好客户,因此,在样本选取时,会优先保证坏客户数量,以充分体现坏客户的特征。
选好的样本要被分为开发样本和验证样本。开发样本用来建模,验证样本用来检验模型的表现。对于验证样本的选择,模型验证分为样本外检验和时段外检验。样本外检验是采用与建模样本不同的样本来进行验证,是从空间维度进行分析。时段外检验则是从时间维度来分析,指验证数据与建模数据处于不同的时段。同时考虑时间和空间维度,共有以下几种取样方法:
对于样本内-时段内的验证样本,为保证与开发样本构成的相似性,一般采用随机抽样的方式,按照70:30或80:20的比例抽取。如果样本比较小,可以使用全部的数据用于建模,再随机选择50%到80%的样本进行验证。
内容有点长,本次整理了模型设计前面的方法论,项目申请评分模型设计要点详细情况下期再整理分享出来。(下图为个贷评分建模项目实施的一般性过程示意图,后续我们的挖掘建模也围绕这个过程开展。)