【BI学习心得18-评分卡模型】

最新推荐文章于 2023-04-03 15:07:27 发布

水花

最新推荐文章于 2023-04-03 15:07:27 发布

阅读量1.1k

点赞数 2

分类专栏： BI_推荐系统文章标签：聚类 python 算法机器学习

本文链接：https://blog.csdn.net/weixin_43849871/article/details/116541888

版权

BI_推荐系统专栏收录该内容

49 篇文章 16 订阅

订阅专栏

本文探讨了评分卡模型在信贷评估中的关键步骤，包括客户评分计算、WOE和IV编码及其作用，以及如何通过KS评价模型性能。此外，深入介绍了DBSCAN聚类算法在异常检测和数据分群中的实践应用，结合实例展示了DBSCAN在金融数据中的运用。

摘要由CSDN通过智能技术生成

1.评分卡模型

1.1基本概念

评分卡模型是常用的金融风控手段之一

风控，就是风险控制，我们采取各种措施和方法，减少风险发生的可能性，或风险发生时造成的损失。

根据客户的各种属性和行为数据，利用信用评分模型，对客户的信用进行评分，从而决定是否给予授信，授信的额度和利率，减少在金融交易中存在的交易风险。

按照不同的业务阶段，可以划分为三种：

贷前：申请评分卡（Application score card），称为A卡
贷中：行为评分卡（Behavior score card），称为B卡
贷后：催收评分卡（Collection score card），称为C卡

1.2客户评分计算

变量名称	变量范围	得分
基准分	-	650
年龄	age < 18	-8
	18 <= age <25	-2
	25<=age<35	8
	35<=age<55	13
	55<=age	5
性别	男	4
	女	2
	未知	-2
婚姻状况	已婚	8
	未婚	-2
	未知	-3
学历	本科及以上	12
	大专	8
	其他	1
贷款申请次数（二代征信）	>3次	-8
	=3次	0
	=2次	5
	<=1次	13

客户评分 = 基准分 + 年龄评分 + 性别评分 + 婚姻状况评分 + 学历评分 + 贷款申请次数

某客户年龄为27岁，性别为男，婚姻状况为已婚，学历为本科，贷款申请次数为1次，那么他的评分=?

650 (基准分) + 8(年龄评分) + 4(性别评分) + 8(婚姻评分) + 12(学历评分) + 13(贷款申请次数) = 695

评分卡的最高分和最低分是多少？

最低分：650-8-2-3+1-8=630
最高分：650+13+4+8+12+13=700

1.3评分卡模型使用步骤

Step1，数据获取，包括获取存量客户及潜在客户的数据

存量客户，已开展融资业务的客户，包括个人客户和机构客户；
潜在客户，将要开展业务的客户

Step2，EDA，获取样本整体情况，进行直方图、箱形图可视化
Step3，数据预处理，包括数据清洗、缺失值处理、异常值处理
Step4，变量筛选，通过统计学的方法，筛选出对违约状态影响最显著的指标。主要有单变量特征选择和基于机器学习的方法
Step5，模型开发，包括变量分段、变量的WOE（证据权重）变换和逻辑回归估算三个部分
Step6，模型评估，评估模型的区分能力、预测能力、稳定性，并形成模型评估报告，得出模型是否可以使用的结论
Step7，生成评分卡（信用评分），根据逻辑回归的系数和WOE等确定信用评分的方法，将Logistic模型转换为标准评分的形式
Step8，建立评分系统（布置上线），根据生成的评分卡，建立自动信用评分系统

在这里插入图片描述

1.4WOE编码

Weight of Evidence，证据权重，是自变量的一种编码，常用于特征变换用来衡量自变量与因变量的相关性。

B代表风险客户，G代表正常客户

对于某一变量某一分组的WOE，衡量了这组里面的好坏客户的占比与整体样本好坏样本占比的差异。

对于二分类问题共100条记录，一个自变量只有两个值value1, value2，如何计算value1, value2对应的woe1, woe2？

value1有50条记录，其中40条对应label 1，另外10条对应label 0
value2有50条记录，其中25条对应label 1，另外25条对应label 0

在这里插入图片描述
WOE差异越大，对风险区分能力会降低吗？

差异越大，对风险区分越明显

1.4.1WOE计算

对于连续型变量，分成N个bins
对于分类型变量保持类别group不变
计算每个bin or group中event和non-event的百分比

1.4.2WOE的作用

将连续型变量转化为woe的分类变量
对相似的bin或group进行合并（woe相似）

计算过程中需要注意的：

每个bin or group记录不能过少，至少有5%的记录
不要用过多的bin or group，会导致不稳定性
对bin or group中全为0或者1的特列，用修正的woe

在这里插入图片描述

1.5WOE的好兄弟—IV

IV，Information Valuewoe，只考虑了风险区分的能力，没有考虑能区分的用户有多少。IV衡量一个变量的风险区分能力,即衡量各变量对y的预测能力，用于筛选变量。

在这里插入图片描述
IV是与WOE密切相关的一个指标，在应用实践中，评价标准可参考如下：

IV范围	变量预估（预测效果）
小于0.02	几乎没有
0.02~1	弱
0.1~0.3	中等
0.3~0.5	强
大于0.5	难以置信，需要确认

怎样使用IV值进行特征变量的筛选？

比如筛选掉IV < 0.1的变量，因为该特征对于y的预测能力很弱

1.5.1WOE和IV计算步骤

Step1，对于连续型变量，进行分箱（binning），可以选择等频、等距，或者自定义间隔，对于离散型变量，如果分箱太多，则进行分箱合并
Step2，统计每个分箱里的好人数(bin_goods)和坏人数(bin_bads)
Step3，分别除以总的好人数(total_goods)和坏人数(total_bads)，得到每个分箱内的边际好人占比margin_good_rate和边际坏人比margin_bad_rate
Step4，计算每个分箱的WOE
Step5，计算每个分箱里的IV，最终求和，即得到最终的IV

2.评价指标—KS

评估指标KS， Kolmogorov-Smirnov，由两位苏联数学家A.N. Kolmogorov和N.V. Smirnov提出。在风控中，KS常用于评估模型区分度。区分度越大，说明模型的风险排序能力（ranking ability）越强。
在这里插入图片描述

KS曲线：计算每个Score分箱区间累计坏账户占比与累计好账户占比差的绝对值
KS值：在这些绝对值中取最大值，是衡量好坏客户分数距离的上限值
KS含义：如果排除掉一定比例的坏用户，会有多少比例的好用户会被误杀掉

在这里插入图片描述

2.1KS作用

KS统计量是好坏距离或区分度的上限
KS越大，表明正负样本区分程度越好

在这里插入图片描述

3.DBSCAN聚类

DBSCAN聚类是一种基于密度的聚类算法，其他他聚类方法大多是基于样本之间的距离进行聚类。

最终确定的簇的个数不确定

DBSCAN聚类将数据分成三类：

核心点，在半径Eps内含有超过MinPts数目的点
边界点，在半径Eps内点的数量小于MinPts，但是落在核心点的邻域内的点
噪音点，既不是核心点，也不是边界点

在这里插入图片描述

3.1DBSCAN算法流程

将所有点标记为核心点，边界点、噪音点
删除噪音点
为距离在Eps之内的所有核心点之间赋予一条边
每组连通的核心点形成一个簇
将每个边界点指派到和它关联的核心点的簇中

在这里插入图片描述

3.2DBSCAN工具使用

import numpy as np
import sklearn.cluster as skc
from sklearn import metrics
import matplotlib.pyplot as plt

mac2id = dict()
online_times = []
f = open('data/', encoding='utf-8')
for line in f:

    # 读取每条数据中的mac地址，
    # 开始上网时间，上网时长

    mac = line.split(',')[2]
    online_time = int(line.split(',')[6])
    start_time = int(line.split(',')[4].split(' ')[1].split(':')[0])

    # mac2id是一个字典：
    # key是mac地址
    # value是对应mac地址的上网时长以及开始上网时间（精度为小时）

    if mac not in mac2id:
        mac2id[mac] = len(online_times)
        online_times.append((start_time, online_time))
    else:
        online_times[mac2id[mac]] = [(start_time, online_time)]

# -1:根据元素的个数自动计算此轴的长度
# X：上网时间
real_X = np.array(online_times).reshape((-1, 2))
X = real_X[:, 0:1]

# 调用DBSCAN方法进行训练，
# labels为每个数据的簇标签

db = skc.DBSCAN(eps=0.01, min_samples=20).fit(X)
labels = db.labels_

# 打印数据被记上的标签，
# 计算标签为-1，即噪声数据的比例。

print('Labels:')
print(labels)
raito = len(labels[labels[:] == -1]) / len(labels)
print('Noise raito:', format(raito, '.2%'))

# 计算簇的个数并打印，评价聚类效果

n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)
print('Estimated number of clusters: %d' % n_clusters_)
print("Silhouette Coefficient: %0.3f" % metrics.silhouette_score(X, labels))

# 打印各簇标号以及各簇内数据

for i in range(n_clusters_):
    print('Cluster ', i, ':')
    print(list(X[labels == i].flatten()))

# 画直方图，分析实验结果

plt.hist(X, 24)
plt.show()