玩转大数据风控—利用评分卡模型实现信用评级
本篇文章对于评分卡的构造讲述详细,仔细阅读大约需要15分钟
评分卡模型是一种通过评估申请人的资信状况来预测申请人未来拖欠或坏账概率的模型。它是根据风险评分模型预测的违约概率以及相关变量,计算得出决策规则,用来为风控人员制定风控政策提供科学的指引与帮助。评分卡模型在风险管理中有着非常重要的作用。
逻辑回归作为一种经典的分类模型方法,由于其算法易于理解、可解释性强等优点,在评分卡模型体系中有着十分广泛的应用。
本文将阐述逻辑回归模型的算法原理,并介绍如何基于logistic回归算法建立标准评分卡的流程。
一、算法介绍
1. 什么是逻辑回归?
逻辑回归是这样的一个过程:面对一个分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。如上面所举判断样本学生是男生还是女生的例子上,我们可以将学生的头发、穿着、爱好、职业等具体数据信息放入已训练好逻辑回归模型中,就此预测该学生是男生或女生的概率。
2. 逻辑回归为何逻辑 ?
Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,常常用于两分类问题(即输出只有两种结果,分别代表两个类别)。逻辑回归算法是借用了回归思想解决分类问题。
假设有一个二分类问题,输出为y∈{0,1} ,而线性回归模型产生的预测值为 z=WT x+b是实数值,我们希望有个阶跃函数来帮助实现z 值到0/1 值的转化。该函数即为Sigmoid函数。
于是,我们把Sigmoid 函数计算得到的值大于等于0.5 的归为类别1 ,小于0.5 的归为类别0。
3. 逻辑回归怎么回归?
建立逻辑回归模型的过程,其实是根据给定的训练集,将参数w 求解出来的过程。而求解w的值,则需要确定代价函数。下面的步骤为确定逻辑回归算法代价函数的求解过程。由下面两式:
我们可以将其写成一般形式为:
接下来则是利用极大似然估计来根据给定的训练集估计出参数w 。最大似然估计是指利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
为了简化运算,会对上面等式的两边都取一个对数:
这样问题就转换成了以对数