在信贷场景中,客户申请评分模型有些重要作用。其主要步骤分为样本定义和数据获取、数据清洗、特征工程、模型评估、部署上线、模型监控和模型衰退迭代等。未来老司机将分章节逐渐介绍以上步骤的关键节点和注意事项
首先是样本定义和数据获取
这个步骤能大致判断出项目能不能成
当接手一个新项目,或去到一家新公司,要做A卡,首先,看公司的历史和库存案件量、mob情况、申请客户的数据情况(如征信解析数据,三方信源的多头、近半年申请次数、逾期超M1次数、收入负债数据等等,不能只是同盾智信分fico分之类的评分数据),如以上都有且充足,那恭喜你,这个项目有很大的希望能成;如果只是部分满足,接下来咱们再仔细讨论;如果以上都没有,那也恭喜,从0开始见证奇迹…
1 数据样本充足
一般情况下是不会等到所有客户都到期且催收了很久才取数建模。样本获取和好坏客户定义的关键点有:
1.1 mob的逾期表现
如上图,某12期信贷产品的mob表现。从图中可知,mob8以后,逾期表现变得平滑,可将满足mob8表现期的客户作为样本入模,mob7及以前的样本暂不使用
1.2回收率表现
如上表,某产品的回收率表现。从上图可知,M3的月回收率已经是个位数,M4回收率低至1.2%,M5低于1%。由此可见,M4和M4+的客户,回收率已经足够低(经验法则可知),因此,可将M4及以上客户作为坏样本;正常还款和已结清客户作为好样本,M1M2客户情况不明,舍弃;M3客户视具体项目情况而定
2 客户量不足、客户表现期不足、信源数据不足
2.1首先是客户量不足问题
假如现在只有大几百或一两千个可用的样本,理论上来说,样本不足,可通过样本生成技术、过采样(坏样本太少)来缓解,但实际业务中是极少这样操作的(一般只在样本量充足的情况下缓解样本不均衡问题,但样本量不足的情况下一般不这样操作)。为什么会这样呢?原因有:
- 再精妙技术生成的样本,终究是建立在对现有样本特征学习基础上的,如样本不足,生成效果难于保证。而且生成样本和实际样本间的差距,是难以量化、预测的(都没放款,当然没办法量化对比)
- 从业务本身的角度讲,金融最担忧的,就是未知的风险。已知的、可预测的风险是收益,不可知的风险才是真正的风险。而通过技术手段生成的样本,增加了这种不确定性
所以,样本不足的情况下,该怎么操作呢?
处理方法:
- 模型选择方面。选择简单的模型,比如逻辑回归就不错,至于各种提升树则不适合(过拟合明显);
- 特征选择方面。直接使用现有评分卡的特征变量进行建模,对现有评分卡刻度进行优化即可。至于其他特征变量,等样本丰富后再考虑特征工程
- 模型迭代方面。小步快跑,勤快迭代
2.2 客户表现期不足的问题
先讨论分期产品,比如12期的小额信贷产品。无论从理论还是实际业务的角度,客户表现期不足,都不适合建模。如前文的mob表现图,假设取mob4以后的客户作为样本进行建模,那么,mob4-mob8的逾期客户(坏样本),会被误认为是好样本进行入模(上帝视角:这部分样本占实际的总的坏样本数比例还不低),该操作会对模型产生干扰。此时建议继续使用原有的评分卡。如一定要使用表现期不足的样本建模,在模型校验阶段需对模型的坏账排序能力进行评估
另一种情况,不是分期产品(如期限只有30天的产品、类信用卡产品),则不用考虑mob表现期的问题,只需要考虑回收率表现即可。如前文回收率表现图,假设目前只知道m1的表现,m2及以后的回收情况未知,且现在公司急不可待的想要优化评分卡,该如何操作呢?根据行业经验可知,同类型产品或相似客群m2、m3、m3+的回收率是相对固定的(从业经验、问贷后策略人员、问同行都可以知道回收率水平)。因此,将下迁m2客户定义为坏样本后进行建模,模型刻度出来后,将每个评分区间的坏账率乘于m2+回收率水平即可(可以是每个区间都一样,也可以是梯度的)。此时依然建议选用简单的模型,慎用复杂模型或模型融合技术
2.3 新源数据不足问题
选用简单模型即可,比如逻辑回归,少则十几个特征,多则二三十个特征即可达到不错的效果。
3,没有历史数据,项目冷启动
如果您来到了这一关,恭喜恭喜~
巧妇难为无米之炊,此时只能使用基于经验法则的评分卡,或套用其他业(公)务(司)的评分卡。您目前的主要工作:
- 摸鱼等业务
- 鞭策策略和商务,把各种三方信源接进来
- 提桶跑路…
写在最后:
同学们反馈的风控模型面试流氓问题:
1,说说你在做申请评分模型时,最重要的10个特征是?(还不如直接问贵司的评分卡长啥样)
2,(接第一个问题)这些特征来自哪些信源?(这就更过分了,用哪个信源可是公司的机密行不。。)