风控建模1:样本定义和数据获取

                                 
在信贷场景中,客户申请评分模型有些重要作用。其主要步骤分为样本定义和数据获取、数据清洗、特征工程、模型评估、部署上线、模型监控和模型衰退迭代等。未来老司机将分章节逐渐介绍以上步骤的关键节点和注意事项

首先是样本定义和数据获取

这个步骤能大致判断出项目能不能成

当接手一个新项目,或去到一家新公司,要做A卡,首先,看公司的历史和库存案件量、mob情况、申请客户的数据情况(如征信解析数据,三方信源的多头、近半年申请次数、逾期超M1次数、收入负债数据等等,不能只是同盾智信分fico分之类的评分数据),如以上都有且充足,那恭喜你,这个项目有很大的希望能成;如果只是部分满足,接下来咱们再仔细讨论;如果以上都没有,那也恭喜,从0开始见证奇迹…

1 数据样本充足
一般情况下是不会等到所有客户都到期且催收了很久才取数建模。样本获取和好坏客户定义的关键点有:
1.1 mob的逾期表现



如上图,某12期信贷产品的mob表现。从图中可知,mob8以后,逾期表现变得平滑,可将满足mob8表现期的客户作为样本入模,mob7及以前的样本暂不使用

1.2回收率表现

如上表,某产品的回收率表现。从上图可知,M3的月回收率已经是个位数,M4回收率低至1.2%,M5低于1%。由此可见,M4和M4+的客户,回收率已经足够低(经验法则可知),因此,可将M4及以上客户作为坏样本;正常还款和已结清客户作为好样本,M1M2客户情况不明,舍弃;M3客户视具体项目情况而定

2 客户量不足、客户表现期不足、信源数据不足
2.1首先是客户量不足问题

假如现在只有大几百或一两千个可用的样本,理论上来说,样本不足,可通过样本生成技术、过采样(坏样本太少)来缓解,但实际业务中是极少这样操作的(一般只在样本量充足的情况下缓解样本不均衡问题,但样本量不足的情况下一般不这样操作)。为什么会这样呢?原因有:

  • 再精妙技术生成的样本,终究是建立在对现有样本特征学习基础上的,如样本不足,生成效果难于保证。而且生成样本和实际样本间的差距,是难以量化、预测的(都没放款,当然没办法量化对比)
  • 从业务本身的角度讲,金融最担忧的,就是未知的风险。已知的、可预测的风险是收益,不可知的风险才是真正的风险。而通过技术手段生成的样本,增加了这种不确定性

所以,样本不足的情况下,该怎么操作呢?
处理方法:

  • 模型选择方面。选择简单的模型,比如逻辑回归就不错,至于各种提升树则不适合(过拟合明显);
  • 特征选择方面。直接使用现有评分卡的特征变量进行建模,对现有评分卡刻度进行优化即可。至于其他特征变量,等样本丰富后再考虑特征工程
  • 模型迭代方面。小步快跑,勤快迭代

2.2 客户表现期不足的问题
先讨论分期产品,比如12期的小额信贷产品。无论从理论还是实际业务的角度,客户表现期不足,都不适合建模。如前文的mob表现图,假设取mob4以后的客户作为样本进行建模,那么,mob4-mob8的逾期客户(坏样本),会被误认为是好样本进行入模(上帝视角:这部分样本占实际的总的坏样本数比例还不低),该操作会对模型产生干扰。此时建议继续使用原有的评分卡。如一定要使用表现期不足的样本建模,在模型校验阶段需对模型的坏账排序能力进行评估

另一种情况,不是分期产品(如期限只有30天的产品、类信用卡产品),则不用考虑mob表现期的问题,只需要考虑回收率表现即可。如前文回收率表现图,假设目前只知道m1的表现,m2及以后的回收情况未知,且现在公司急不可待的想要优化评分卡,该如何操作呢?根据行业经验可知,同类型产品或相似客群m2、m3、m3+的回收率是相对固定的(从业经验、问贷后策略人员、问同行都可以知道回收率水平)。因此,将下迁m2客户定义为坏样本后进行建模,模型刻度出来后,将每个评分区间的坏账率乘于m2+回收率水平即可(可以是每个区间都一样,也可以是梯度的)。此时依然建议选用简单的模型,慎用复杂模型或模型融合技术

2.3 新源数据不足问题
选用简单模型即可,比如逻辑回归,少则十几个特征,多则二三十个特征即可达到不错的效果。


3,没有历史数据,项目冷启动
如果您来到了这一关,恭喜恭喜~
巧妇难为无米之炊,此时只能使用基于经验法则的评分卡,或套用其他业(公)务(司)的评分卡。您目前的主要工作:

  • 摸鱼等业务
  • 鞭策策略和商务,把各种三方信源接进来
  • 提桶跑路…

写在最后:
同学们反馈的风控模型面试流氓问题:
1,说说你在做申请评分模型时,最重要的10个特征是?(还不如直接问贵司的评分卡长啥样)
2,(接第一个问题)这些特征来自哪些信源?(这就更过分了,用哪个信源可是公司的机密行不。。)
 

Python金融大数据风控建模实战:基于机器学习》是一本介绍如何使用Python进行金融大数据风险控制建模的实践指南。本书主要包括以下内容。 首先,本书详细介绍了使用Python进行金融大数据处理的基础知识。读者将了解如何使用Python进行数据清洗、特征工程以及数据可视化等操作。这些基础知识对于建立可靠的金融风险模型至关重要。 其次,本书介绍了机器学习在金融风控建模中的应用。读者将学习常用的机器学习算法,包括逻辑回归、决策树、随机森林等。同时,本书还介绍了如何使用交叉验证和网格搜索等技术来选择最佳的模型参数。 另外,本书还提供了一些实际案例,介绍了如何使用Python进行金融大数据风控建模的实战经验。这些案例包括信用评级、欺诈检测等实际应用场景,读者可以通过实际案例来学习如何将机器学习算法应用于真实的金融风控问题。 最后,本书还介绍了一些工具和库,如pandas、numpy和scikit-learn等,这些工具和库能够帮助读者更高效地使用Python进行金融大数据风控建模。 总的来说,《Python金融大数据风控建模实战:基于机器学习》是一本非常实用的书籍,对于想要学习如何使用Python进行金融大数据风控建模的读者来说,具有很高的参考价值。通过阅读本书,读者可以了解到如何使用机器学习技术来解决金融风险问题,了解如何应用Python工具和库进行数据处理和模型建立,并通过实际案例来提高实践能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值