信贷评分卡:以分数的形式来衡量用户风险的一种模型策略。通常,分数越低,风险越高。
分类:根据使用场景分为反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡。
特性:可解释性、稳定性、预测能力、识别效果、等价于逾期概率
作用:参与决策、额度策略依据、利率策略依据
常用模型:logistic回归
开发流程:
1、数据选取,数据选取设计三个重要方面:第一,能否获取到用户尽量全的数据指标,数据是建模的基础,也是贯穿整个建模过程的主线;第二,好坏用户定义,主要是借鉴用户还款以及逾期的滚动率分析来判断好坏界定的阈值;第三,观察期和表现期的确定,主要是通过账龄分析来判定坏用户充分暴露所需要的时间周期
2、变量筛选,通常我们的数据集可能会包含成百上千的指标变量,但是这些变量并不是全部都要纳入评分建模,或者说本身有些‘收益’较小的变量提前舍去更方便后面的建模工作,主要的变量筛选主要有随机森林、xgboost、IV值计算、losso回归、逐步回归、相关性分析等;
3、woe变换,对筛选的关键性指标进行分箱处理(woe变换),主要的分箱方法主要有等频分箱、等距分箱、卡方分箱、决策树分箱等;
4、logistic回归,对分箱完成的变量进行logistic回归建模,剔除参数估计为负数的变量,重新进行建模,直至参数估计全部为正数;
5、变量分数输出,确