采用策略分布曲线评估信用风险模型的效果

最新推荐文章于 2024-11-02 16:28:26 发布

番茄风控

最新推荐文章于 2024-11-02 16:28:26 发布

阅读量681

点赞数

分类专栏：番茄风控大数据公众号文章标签： python 人工智能

本文链接：https://blog.csdn.net/weixin_45545159/article/details/128122487

版权

番茄风控大数据公众号专栏收录该内容

480 篇文章 476 订阅

订阅专栏

在信贷业务的风控体系中，模型的构建与应用始终是一项重点内容，最常见的莫过于贷前环节的申请信用风险模型。作为典型的二分类模型，为了有效识别好坏用户群体，我们经常选取某些评价指标来量化模型的综合性能，例如KS、AUC、Accuracy等，并进一步根据业务拟定的模型审批通过率，来部署模型线上决策的阈值，而模型应用后的坏账分布，则按照通过用户群体的贷后表现来反映。当然，这里针对存量数据分析得到的坏账率大小在业务上是可接受的，否则不会事先确定了模型审批的通过率范围。
风控预测模型的实施应用，对于模型通过的用户群体，不可避免的会存在少部分好用户，假设模型拟定拒绝30%的申请用户，则需要接受70%通过用户的坏账表现。这里其实还有另外一种思路来决定模型的拒绝阈值，即反向考虑模型应用的决策思路，若希望通过用户群体的坏账率不超过某个阈值，可以按照此阈值对应的模型概率值来进行决策审批。举个例子，期望模型决策后样本坏账率的最高阈值badrate=10%，与之相应的模型预测概率值p=0.7，则模型决策条件为当概率值p>=0.7时拒绝，这种情况需要明确的是，拒绝的样本用户比例在业务上同样也是可接受的。此时，若模型的区分效果越好，则用户坏账率在保持一定范围内的同时，通过率也可以较大程度的提升，这自然有利于业务的整体收益。
围绕以上实际业务背景，本文将介绍下模型应用的策略分布曲线在模型评估环节的意义，这对于不同模型效果的进一步对比有较好的参考作用。为了便于理解与分析，我们将结合具体的实例样本数据，通过建立多个模型来绘制各自的策略分布曲线，从而实现模型应用效果的量化评估。

1、实例样本介绍
本文选取的建模样本数据包含10000条样本与22个字段，部分数据样例如图1所示。其中，ID为样本主键，表示用户申请进件的订单号；X01~X20为特征变量池，各字段含义为用户不同维度的信息，除了变量X03、X06的分布类型为字符型以外，其余X变量均为标准化的数值型数据；Y为目标变量，代表用户贷后表现的好坏标志，取值0/1分别为好/坏用户，对应的分布占比如图2所示。
在这里插入图片描述
图1 建模数据样例

在这里插入图片描述
图2 建模数据样例

2、XGBoost模型构建

根据以上建模样本数据与目标分布情况，现采用XGBoost二分类算法来构建申请信用风险模型，也就是通过特征变量X01~X20数据来拟合目标变量Y，以实现模型对目标用户的好坏预测分析。由于XGBoost算法不能直接支持分类型变量输入，因此在模型训练前需要对特征X03与X06的取值类型进行转换，这里采用常见的特征onehot编码方式，具体实现过程详见知识星球代码详情，输出特征X06编码结果如图4所示。
在这里插入图片描述
图4 特征编码结果

围绕特征编码处理后的数据，现可以通过XGBoost算法来训练拟合模型，这里采用相同模型算法、不同参数组合来先后构建3个模型，差异化参数分别n_estimators（树的数量）、max_depth（树的深度）、learning_rate（学习率），各参数的具体取值如图5所示，其余未列参数均保持默认统一。
在这里插入图片描述
图5 模型训练参数

由于以上模型V1~V3的算法相同，模型训练及其评估的流程是完全一致的，这里以模型V1的建模过程为例，模型训练与模型评估的实现分别详见知识星球代码详情。
针对模型V1训练拟合的性能结果（KS=0.4581、AUC=0.7290），可以看出当前模型的区分效果表现较好。此外，对于建模各样本的预测概率值分布保存至数据集pred1_Y_proba，这里将会为后续的模型策略曲线绘制提供数据，模型V2与V3同理。根据以上建模过程，通过调整模型训练的参数组合，最终可以得到各模型的性能指标，具体如图8所示。
在这里插入图片描述
图8 模型性能对比

通过以上模型的性能指标结果，可以直观了解到模型V1的拟合效果是最好的，在Accuracy、KS、AUC维度上均表现较好，我们也确定模型V1是相对较优模型，这也是我们通常采用的模型评价方法。接下来我们在此模型定量分析的情况下，主要介绍下采用模型策略曲线来衡量模型效果的定性方法，其核心思路是将模型的预测概率值等间隔作为模型的决策阈值，并依次得到对应样本群体的坏账率分布，从而判断以不同分位点的阈值作为业务可接受的拒绝样本比例，来观察通过用户群体的坏账大小。若多个模型按照此方式进行展现，便可有助于模型应用效果的对比分析。
模型策略的绘制主要依赖于模型的预测概率分布，例如模型V1的pred1_Y_proba，模型V2与V3同理。这里以模型V1为例，模型策略曲线的实现过程详见知识星球代码详情，输出的可视化曲线结果如图10所示。
在这里插入图片描述
图10 策略曲线可视化

对于上图展示的模型V1策略曲线，表示业务上可接受通过用户比例对应的坏账率分布，例如当接受60%的用户群体予以通过，则以预测概率60%分位点的阈值p作为模型拒绝阈值，此时对应的通过用户群体的坏账率badrate约为30%。从此策略曲线分布图可以较为直观的了解到模型应用的通过率与坏账率的关系，便于对模型决策审批策略的制定，这也是模型策略分布曲线的价值所在，可以进一步衡量模型综合效果的好坏。按照以上模型V1策略分布曲线的绘制过程，我们可以同理很容易得到模型V2与V3的策略曲线，具体结果如图11所示。
在这里插入图片描述
图11 模型策略曲线对比

针对模型V1~V3的策略曲线结果，可以很清晰的看出模型V1的区分效果最佳，假设业务上可接受80%的通过用户，则在分位点80%对应的各模型坏账率badrate结果，模型V1是最低的，模型V2次之，模型V3则最高。在模型应用的最终选择上，自然会考虑模型V1，即在现有的几个模型版本中，可以保证一定通过率的前提下，能够实现坏账率相对最低。以上根据策略曲线分析的得到模型效果好坏，与前边通过模型指标衡量模型性能的结论是一致的（图8），这也进一步从模型应用的角度验证了模型的综合性能。

综合以上内容，我们围绕具体的实际业务背景与建模样本数据，通过建立多个信用风险评估模型，重点介绍了采用模型策略分布曲线来衡量模型性能的意义，这对于多角度分析模型的应用效果具有较好的参考价值。为了便于大家对采用策略分布曲线衡量模型效果的进一步理解与熟悉，本文额外附带了与以上内容同步的python代码与样本数据，详情请移至知识星球查看相关内容。
在这里插入图片描述