一份风控模型性能提升秘籍奉上|附视频+实操(详版)

最近,番茄星球课堂为大家带来了一次主题为“信贷风控拒绝演绎实战”的直播课盛宴,内容充实,干货满满!
课程分为两次专题展开,分别为《拒绝推论场景描述、方法介绍与案例分享》、《银行信用卡风控拒绝推论的场景实操》,全方位讲解了风控拒绝推论思想的业务场景、解决方法、算法原理、模型实现等,让大家从业务、算法、实操三个重要维度掌握拒绝推论的应用,为各位小伙伴的数据分析或数据建模的实战能力进行充电!

1、业务场景介绍
在金融信贷场景的风控体系中,贷前环节往往是通过策略或模型的“决策”动作来防范风险的,无论是欺诈识别,还是信用评估,或者是精准营销等。当信贷客户群体进行信贷申请并发起进件时,必然会通过大数据风控系统的自动化“决策”审批,由于不同客群的资质能力存在差异,最终风控决策自然会产生“通过”和“拒绝”的结果。
在贷前风控的决策流程中,申请信用评分卡模型(A卡)应用非常广泛,而且在很多环节发挥着重要作用,包括风险识别、产品定价、客户分群等。A卡模型的构建是一类有监督模型,即根据存量用户在事件发起时点的申请信息,与事件结束时点的还款表现,采用有监督的机器学习算法(如逻辑回归、XGBoost等),来拟合训练模型,最终实现模型的线上部署与风控应用。这里需要说明的是,对于A卡模型,往往是基于有贷后表现的用户数据进行建模,而模型的实际应用是面向未来可能待通过和待拒绝的所有用户群体,这在很大程度上反映了模型训练的样本特征,与模型应用的样本特征存在较大差异,使得模型在实际应用过程中很有可能出现效果不佳的情况。
针对贷前模型的训练样本与应用样本的特征差异,拒绝演绎(拒绝推论)的思想可以使模型特征更贴近真实业务场景,有效降低建模样本差异的影响,从而优化模型拟合性能,提升模型应用的实际决策效果。因此,拒绝推论思想主要应用于贷前风控环节,其业务流程示意图具体如图1所示。
在这里插入图片描述
图1 拒绝推论场景

在实现拒绝推论模型的过程中,主要存在两个待解决的难点,分别是:
1、如何定义拒绝样本的目标变量?
2、如何确定拒绝样本的引入比例?
当有效解决了这两个核心问题,对于联合建模的任务就变得简单很多,只需要采用合理的数据分析方法,对样本数据有序地进行处理加工,然后根据相应机器学习算法来训练拟合模型,就可以得到我们最终期望的结果,这和我们数据建模的正常流程是一致的。其中,对于拒绝样本的引入比例,在实际业务中一般可以考虑拒绝样本数量约为通过样本数量的0.25~1倍。当然,具体比例选取务必要结合实际场景的数据情形与业务需求。

2、拒绝推论方法
对于拒绝样本的目标定义,这是拒绝推论数据分析的最关键点,下面我们介绍下在实际工作中最常用的几种方法,包括样本随机抽取法、模型赋值划分法、模型分组扩充法、模型分组扩充法、样本权重推断法、专家经验设定法,具体如图2所示。
虽然每种方法在处理流程、算法选择、业务理解等方面存在较大差异,但最终需要的目标是一致的,即更合理地对拒绝样本的好坏标签进行设定,然后通过有效的机器学习算法得到更符合实际业务的拒绝推论模型,接下来我们对每种处理方法的主要步骤进行描述说明。
在这里插入图片描述
图2 拒绝推论方法

(1)样本随机抽取法
Step1:明确通过样本的标签分布(0/1),标签1占比为pct;
Step2:对拒绝样本进行随机抽样,抽取比例为pct的2~4倍;
Step3:抽取样本的目标赋值为1,剩余样本的目标赋值为0;
Step4:通过样本与拒绝样本联合建模,得到拒绝推论模型。
(2)模型赋值划分法
Step1:根据通过样本构建评分模型;
Step2:利用通过样本模型对拒绝样本进行打分;
Step3:对拒绝样本评分进行排序,确定好坏标签划分阈值;
Step4:合并通过样本与拒绝样本,重新构建评分模型。
(3)模型分组扩充法
Step1:根据通过样本构建评分模型;
Step2:利用通过样本模型对通全量样本进行打分;
Step3:汇总不同评分区间的通过样本坏账率;
Step4:参照同分组的通过样本坏账率,设置拒绝样本坏账率pct;
Step5:对拒绝样本随机抽样pct设定坏样本,剩余样本为好用户;
Step6:通过样本与拒绝样本联合建模,得到拒绝推论模型。
(4)特征变量聚类法
Step1:对通过样本进行聚类分析,以目标变量分类确定中心点;
Step2:根据好坏样本的中心点,得到拒绝样本与中心点距离;
Step3:对比好坏距离大小关系,取距离较小对应的类簇标签;
Step4:通过样本与拒绝样本联合建模,得到拒绝推论模型。
(5)样本权重推断法
Step1:算出各特征变量在通过样本的平均值a;
Step2:算出各特征变量在全量样本的平均值b;
Step3:设定特征变量的更新权重ω=b/a;
Step4:对通过样本各特征进行加权ω,然后根据通过样本建模。
(6)专家经验设定法
Method1:根据自有数据的重要特征变量进行经验划分标签;
Method2:通过外部三方征信数据高价值变量划分阈值确定标签;
Method3:拒绝样本的客户画像描述分析判断用户价值标签。
当采用以上某种方法获取拒绝样本的好坏标签后,就可以按照数据建模的通用流程建立拒绝推论模型,建模主要环节如图3所示。当最终得到拒绝推论模型之后,同样需要评估模型的综合性能,常见指标包括KS、AUC、Accuracy、Recall等。此外需要注意的是,为了评估拒绝推论的效果,务必要验证下拒绝推论模型的应用效果,具体可以对比下通过样本与拒绝样本的坏账率分布、特征变量分箱IV值、验证数据集的模型性能等,这也是有效确保拒绝推论模型可以满足实际业务需求的重要环节,常用方法如图4所示。
在这里插入图片描述
图3 数据建模流程

在这里插入图片描述
图4 拒绝推论模型验证

3、拒绝推论实战
在我们第2次专题课中,围绕银行信用卡风控拒绝推论的业务场景,采样Python语言工具进行了具体案例实操,详细介绍了贷前申请信用拒绝推论模型的实现过程,并重点解读了拒绝推论的实现步骤,以及模型效果的验证逻辑。下面我们对整个案例场景进行简要描述,案例是通过模型赋值划分法来定义拒绝样本的目标变量,对应拒绝推论的原理过程如图5所示。

在这里插入图片描述
图5 模型赋值划分法原理

(1)样本数据概况
场景案例选用样本的数据量是14000条,含通过样本10000条、拒绝样本4000条,特征字段数量16个,其中X变量12个,数据样例与特征字典如图6、7所示。
在这里插入图片描述
图6 样本数据样例

在这里插入图片描述
图7 样本数据样例

通过样本数据的预测标签flag,是根据字段overdue(逾期天数)转换而来,结合场景实际业务表现采用pd3(逾期天数大于3天)来定义目标,具体可以通过滚动率分析、账龄分析等方法综合决定。

在这里插入图片描述
图8 样本数据样例

(2)通过样本建模
根据通过样本数据,建立二分类预测模型。在整个建模过程中,可以采用缺失值处理、异常值处理等方法对数据进行清洗,接着通过特征相关性、特征信息值、特征衍生、特征筛选等特征工程步骤,来具体分析特征变量的性能,其中特征相关性、特征衍生(部分)如图9、10所示。
在这里插入图片描述
图9 特征相关性分析

在这里插入图片描述
图10 特征衍生(部分)

通过一系列特征工程处理之后,采用决策树集成学习算法XGBoost来拟合训练模型,具体实现代码与模型性能分别如图11、12所示。
在这里插入图片描述
图11 通过样本模型训练

在这里插入图片描述
图12 通过样本模型性能

(3)拒绝样本建模
当得到通过样本的模型之后,便可以对拒绝样本进行评分,然后根据预测概率的排序结果,以某个阈值作为好坏标签的划分标准,实现过程如图13所示。其中,阈值的设定是根据拒绝样本划分后对应坏账率是通过样本坏账率的2~4倍而定,本案例的划分阈值为0.479772,这样得到的拒绝样本目标分布如图14所示,可以得知其坏账率为70.05%,是通过样本坏账率(33.55%)的2倍多(图8),这是满足我们预先设定需求的。
在这里插入图片描述
图13 拒绝样本目标定义


在这里插入图片描述
图14 拒绝样本目标分布

接着将通过样本与拒绝样本合并进行联合建模,其过程与通过样本建模流程类似,最终得到的拒绝推论模型性能如图15所示,可以看出对于常见评估指标KS、AUC等与通过样本模型性能(图12)相比有一定提升。当然,模型最终的性能表现可以通过模型调参方法不断优化,例如采用常见的网格搜索与交叉验证方法进行模型调优,以获取更好的模型效果。
在这里插入图片描述
图15 拒绝推论模型性能

为了验证拒绝推论模型的效果,在前边已简单描述过(图4),具体可以对比下通过样本与拒绝样本的预测目标坏账率分布、特征变量分箱IV值差异、验证数据集的模型性能等。下面我们通过特征IV值来简单分析下拒绝推论前后的变化,通过样本与全量样本(通过+拒绝)的特征IV值分布如图16所示。从结果可知,全量样本的特征IV值明显比通过样本的特征IV值要高,说明拒绝样本评分后标签赋值较为合理,且有效提高了特征字段的区分度,这对拒绝推论模型的拟合训练是非常有帮助的。此外,还可以在采用验证数据集的模型效果表现进行对比,即将通过样本一定比例的样本(例如30%)作为验证数据集,然后将通过样本模型与拒绝推论模型分别对其测试评估,根据最终模型的性能指标(如KS、AUC、Accuracy等)来评估模型的效果,如果拒绝推论模型表现的效果明显较好,说明拒绝推论模型在这个维度上分析是比较好的。
在这里插入图片描述
图16 拒绝推论前后特征IV值

以上内容便是我们番茄星球课堂近期推出的“信贷风控拒绝演绎实战”专题课程概要,全程内容干货尽显!由于文章内容有限,有兴趣的童鞋可继续关注:
在这里插入图片描述
详细视频可见下篇

~原创文章

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于风控模型性能优化的搜索策略,通常可以采取以下几个方向: 1. 特征工程优化:对于风险模型来说,特征选择和特征构建是非常重要的一环。可以通过领域知识和数据分析来筛选出最相关的特征,并进行特征工程,例如特征变换、组合和衍生等,以提高模型性能。 2. 模型选择和调参:在风控模型中,常见的算法包括逻辑回归、决策树、随机森林、支持向量机等。可以尝试不同的算法,并进行模型选择和调参,以找到最适合问题的模型和参数组合。 3. 数据预处理和清洗:风险模型性能很大程度上受到输入数据的质量影响。因此,在建模之前,需要对数据进行预处理和清洗,包括缺失值处理、异常值处理、重复值处理等,以提高数据的准确性和完整性。 4. 集成学习:集成学习是一种将多个模型组合起来进行预测的方法。可以尝试使用集成学习算法,如随机森林和梯度提升树等,以提高模型的鲁棒性和泛化能力。 5. 模型评估和监控:风控模型性能评估和监控是一个持续进行的过程。可以使用交叉验证、ROC曲线、KS统计量等指标对模型进行评估,并建立监控机制,及时发现模型性能下降或异常情况。 总之,风控模型性能优化的搜索策略需要综合考虑特征工程、模型选择和调参、数据预处理和清洗、集成学习以及模型评估和监控等方面,通过不断的迭代和优化提升模型性能和稳定性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值