本文主要分为三部分:
第一部分,介绍原理和选择依据;
第二部分,介绍topsis的方法建模过程;
第三部分,建模总结。
通过这三部分的来描述如何建立C卡催收评分模型。
第一部分:我们先了解一下什么是Topsis方法。
TOPSIS法(Technique for Order Preferenceby Similarity to Ideal Solution,)逼近理想解排序法、理想点法;他是C.L.Hwang和K.Yoon于1981年首次提出,TOPSIS法根据有限个评价对象与理想化目标的接近程度进行排序的方法,是在现有的对象中进行相对优劣的评价。理想化目标(Ideal Solution)有两个,一个是肯定的理想目标(positive ideal solution)或称最优目标,一个是否定的理想目标(negative ideal solution)或称最劣目标,评价最好的对象应该是与最优目标的距离最近,而与最劣目标最远,距离的计算可采用明考斯基距离,常用的欧几里德几何距离是明考斯基距离的特殊情况。
TOPSIS法是一种理想目标相似性的顺序选优技术,在多目标决策分析中是一种非常有效的方法。它通过归一化后的数据规范化矩阵,找出多个目标中最优目标和最劣目标(分别用理想解和反理想解表示) ,分别计算各评价目标与理想解和反理想解的距离,获得各目标与理想解的贴近度,按理想解贴近度的大小排序,以此作为评价目标优劣的依据。贴近度取值在0~1 之间,该值愈接近1,表示相应的评价目标越接近最优水平;反之,该值愈接近0,表示评价目标越接近最劣水平。该方法已经在土地利用规划、物料选择评估、项目投资、医疗卫生等众多领域得到成功的应用,明显提高了多目标决策分析的科学性、准确性和可操作性。
选择逾期有重要两个考虑因素:一个是逾期时间因素;一个是逾期金额因素;
往往逾期前期阶段容易收回,越往后,逾期期数越长,收回金额越大。(催收评分模型中因素选择可以重点考虑从用户的还款记录中提取,本文选择较为常见的数据作为变量,实际中笔者认为可以考虑10-16个因素为宜)。
另外需要说明一点,对于逾期和损失率的关系。
.
上图为理想化的潜在损失率示意图。预计潜在损失率,随着逾期期数增加,潜在损失率逐步提高。
数据准备阶段,建立同趋势化的数据;
第一步:进行评价指标同趋势化;
在进行建模时需要对各项指标(我们以合同金额、合同期限、逾期金额、逾期期数,逾期四个因素作为参考变量)要求方向一致,通常采用倒书法(原有的指标变成倒数即采用 x变成 1/x方法)。但是本文不采用倒数,采用对数和除数进行同趋势化处理。
数据如下(已经过脱敏处理):
账户ID |
合同金额 |
合同期数 |
逾期期数 |
逾期金额 |
期数对数i |
金额除数J |
10001 |
3000 |
10 |
4 |
884 |
0.6990 |
0.2947 |
10002 |
3000 |
10 |
2 |
1436 |
0.4771 |
0.4787 |
10003 |
3000 |
12 |
4 |
851 |
0.6477 |
0.2837 |
10004 |
3000 |
11 |
4 |
2108 |
0.6712 |
0.7027 |
10005 |
3000 |
9 |
6 |
2140 |
0.8856 |
0.7133 |
10006 |
3000 |
12 |
10 |
550 |
0.9650 |