基于机器学习的信用卡之行为评分卡是如何建立的？

CDA数据分析师-前沿资讯

于 2019-05-24 14:49:05 发布

阅读量1.7k

点赞数 1

文章标签：数据科学家

本文链接：https://blog.csdn.net/yoggieCDA/article/details/90516246

版权

本文聚焦信用卡风控评分体系中的行为评分卡。作者利用Kaggle数据集，经数据处理、建立评分卡、效果评估等步骤，对比逻辑回归、决策树、梯度提升树三种模型，最终选逻辑回归为预测模型，还介绍了CDA LEVEL 3数据科学家精英培训。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：余子娟，CDA L3 数据科学家学员 & CDA L2持证人，专注于金额科技领域，为银行赋能，助力银行信用卡中心全生命周期经营问题。

身处互联网金融时代，信用无处不在。为对客户进行一个优质与否的评判，使用信用评分，对客户实行打分制成为当前风控领域的难点。而基于机器学习的信用评分卡则是其中关键的环节。

信用评分卡分为A卡（Application scorecard）、B卡(Behavior scorecard)和C卡(Collection scorecard)。A卡是申请评分卡，用于贷前审批阶段对借款申请人的量化评估；B卡为行为评分卡，用于贷后管理，通过借款人的还款及交易行为，结合其他维度的数据预测用户是否会逾期；C卡即催收评分卡，用于催收管理，在借款人当前还款状态为逾期的情况下，预测未来该笔贷款变为坏账的概率。

本文就带大家揭秘信用卡风控评分体系之行为评分卡是如何建立的？

客户信息涉及很多因素，因此敏感信息已在之前脱敏。

目标

通过某银行客户的个人基本资料、过去的信用数据及交易资料，依循评分卡建模的步骤，分析归纳出好客户和坏客户的特征，并建立一个客户是否会持续逾期的评分卡预测模型。

步骤

对客户交易数据结合还款情况进行数据处理；
使用机器学习构建B类评分卡，并对模型进行评价；
再由新样本集对评分卡进行测试，并输出验证结果。

数据

我使用了Kaggle的多个数据集，Kaggle数据集链接：

https://www.kaggle.com/yuzijuan/behavior-scorecard

其中m0_200411.txt为训练集，m0_200412.txt为测试集，TXN_DATA.TXT为交易数据集，MccCode.csv为交易码。

代码

我将本文涉及到的代码全部放在github项目集中。

https://github.com/ICBC-123/scorecard

环境和工具：

Jupyter notebook 、Pandas、Numpy、woebin、var_filter、perf、scorecard、splitdf(后5个为自有评分卡程序)

数据处理

1.训练集处理

首先对数据集中不同类别变量进行数据探索，查看了数据的分布情况。

训练集中PAY_COND（缴费状态码）是可加工的变量，从24位缴费状态中可以获得：

每三个月的逾期次数，形成一个6位数的变量，例如012121；
获取最大逾期月份，最小为0，最大为9；
获得客户的使用月份数和实动月份数

代码实现如下：

账单金额、缴费金额及归属额度是可加工的变量：

近6个月各月的额度使用率
近6个月各月的还贷比，由于还贷比分布不均，将头尾取[-2,2]作为截断。

2.交易数据集处理

交易数据集共计1886.8万笔，有8个交易属性，可加工较多变量：

月均消费次数
月均消费金额
月均入账次数
月均入账金额
笔均消费金额
交易月份数

……

交易数据集中有MccCode，可以和客户目标属性结合，得到客户高中低风险交易占比。

高风险交易占比
中风险交易占比
低风险交易占比

风险程度来源：先将训练集与交易数据按照ID匹配，求每个客户不同交易类别的交易数量和交易占比；再求得坏客户的交易数占总交易的占比为风险切分点，高于该占比15%的交易类别为高风险类别，低于该占比15%的为低风险类别；最后将各个风险类别对应的风险程度代入交易数据，求得每个客户高中低风险交易占比。

最终形成了基本特征、交易特征、信用卡特征及其衍生变量共计53个指标。

建立评分卡

依据根据CRISM-DM数据挖掘理论，设计模型建立步骤，通过数据检验、数据初筛、分箱及计算WOE、IV筛选，最终建模及评分卡。

数据检验

对已处理好的数据集进行数据检验，包括缺失程度、单变量检验、超多分类检验、异常值、空值填充及正负样本平衡检验。本案例中正负样本比为1:3，由于是金融领域逾期类问题，现实中并不认为这个比例属于不平衡样本，一般样本比例小于1:5，需要进行不平衡类问题处理。常用欠采样、过采样或混合采样来填充样本浓度，预测结果不可直接应用，排序之后可用顺序结果应用于实际。

分箱及计算WOE

分箱其实是当前信用卡风险领域较为困难的操作，如何合理分箱是数据处理之外较难的话题。本案例的分类变量是按照将多个类别合并为一类分箱再计算WOE的，连续数据是有监督分箱，按照CART分类树最优分箱计算各变量的WOE。随机选取WOE值查看如下：

可以看到逾期最大月份的IV值较高，坏样本在不同分类上的区隔较大；归属额度的WOE呈现明显的单调，表明这个变量对结果的贡献较大，变量越重要。

而从这四个变量可知，坏样本在不同分类上的区隔不大，WOE值在水平线左右小幅度浮动，表明这个变量对结果的贡献不大，变量不算重要。

分箱代码如下：

建立评分卡

计算出IV值后，由于该模型变量较多，可以选择筛选掉IV小于0.02的变量，剩余37个变量输入模型。并将数据字典保存成文件，用于后续预测调用使用。

按照7:3生成训练集和测试集，计算出各个变量的WOE后用WOE值替换原始数据，并计算各个变量之间的相关性。

此处分别建立了逻辑回归、决策树、梯度提升树来评判模型效果。

可以看出三种模型效果均较好，就测试集的KS值而言，逻辑回归和梯度提升树较好，由于奥卡姆剃刀原理，当模型效果差别不大时，我们有理由选择复杂度较低，业务可解释性更强的模型即逻辑回归作为最终的输出模型，后续我们也会用验证集进行验证。将得到的模型保存，用于后续模型调用。

建立逻辑回归模型后，对模型稳定性进行了测试，得到PSI远小于0.1，模型稳定性很好。

最终生成的评分卡部分截图如下：

效果评估及预测

然后将原测试集（m0_200412.txt）作为验证集，进行预测的流程图如下：

其中数据加工和数据验证与之前流程一致，重复操作即可。操作好后加载模型和验证集，调用已保存好的数据字典文件，将原数据转化为WOE值，若变量出现新值，用0替换原数据。

我此处仍然通过逻辑回归、决策树和梯度提升树三种模型来验证数据，效果如下图：

可以看到决策树的效果已经坍塌，而梯度提升树的效果不如逻辑回归。需要说明的是，根据业务逻辑，我们更关注的是真正逾期的客户有多少被我们预测出来了即召回率（Recall），本案例中召回率最高的仍是逻辑回归，因此得到：逻辑回归从业务理解难度、稳定性、训练集、测试集、验证集等多方面表现较优，最终选择逻辑回归为最终预测模型。