评分卡模型的开发流程
1.需求分析阶段
- 开发种类:申请评分卡,行为评分卡,催收评分卡,反欺诈模型等
- 可接入数据
- 交付时间
- 响应时间
- 交付形式
2.模型开发阶段
- 数据收集:可能数据不同源(不同数据库)或者系统升级过 或者 业务改变导致数据倾向改变
- 数据清洗和预处理: 对于缺失值的几种处理方式
- 特征工程: 先升维再降维。
–变量编码: one-hot encoding, WOE等编码
–变量衍生:需要强背景知识 +
–相关性分析: 两两相关性分析
–多重共线性分析: 一个变量和多个变量的共线性分析
–变量选择: 基于模型的方法,过滤法和嵌入法。可以用随机森林进行重要性排序,选取最大累积贡献值的变量作为输入变量
– 模型的训练和优化
– 模型评估
– 评分卡创建
– 模型开发报告
3.模型验证阶段
- 模型复现
- 模型比较
4.上线部署与模型监控
申请评分卡
评分卡模型对借款人信用状态评估,预测未来产生违约行为的概率。
需求特点
- 要审批授信够快,凸显平台优势
- 授信质量要保证
数据好坏样本定义
- 评分卡模型是监督模型,需要标签,那么如何定义正负标签?
滚动率分析模型
列表
行表示时间
列表示状态转移,比如c-M1,M1-M2,M2-M3…
c表示用户正常还款
M1表示超过还款日1~30天但未超过30天,即逾期一月内还款
M2表示逾期1个月到两个月内
依次类推。
计算出c-M6,M1-M6,M2-M6等等的样本百分比,然后以累积滚动率大于某个阈值的M几+的样本作为坏样本。
观察期
账龄分析
通过账龄分析确定观察期,横坐标为月份,纵坐标为坏样本率。看什么时候坏样本率曲线平缓。那个间隔就可以设定为观察期。
表现期
一般3~6个月
RFM 和 RFMP
最近一次消费(Recency),消费频率(Frequency),消费金额(Monetary)
最近一次消费(Recency),消费频率(Frequency),消费金额(Monetary),Percentage(消费比例)
卡方检验
就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,
如果卡方值越大,二者偏差程度越大;
反之,二者偏差越小;
若两个值完全相等时,卡方值就为0,表明理论值完全符合。
卡方分箱和快速卡方分箱
卡方分箱:计算观测值之间的卡方值,根据卡方值的大小,进行两两合箱,直到满足条件停止合箱。
快速卡方分箱:先对样本进行等频或等距分箱后再使用卡方分箱,这样,在保证分箱正确性的同时,提升了计算效率
卡方分箱
卡方检验
IV值 和 WOE
IV: information value
WOE: weight of evidence 表示了比例的差异性。
如果WOE的绝对值越大,这种差异就越明显,绝对值越小就表明差异不明显。
如果WOE为0,此时这个分箱就无预测能力
请回忆:
- log几率是什么?
- 几率是什么?
- log几率和WOE有什么联系?
- 这和逻辑回归有什么关系?