金融科技中的机器学习,学习笔记更新中。。。。

评分卡模型的开发流程

1.需求分析阶段

  • 开发种类:申请评分卡,行为评分卡,催收评分卡,反欺诈模型等
  • 可接入数据
  • 交付时间
  • 响应时间
  • 交付形式

2.模型开发阶段

  • 数据收集:可能数据不同源(不同数据库)或者系统升级过 或者 业务改变导致数据倾向改变
  • 数据清洗和预处理: 对于缺失值的几种处理方式
  • 特征工程: 先升维再降维。
    –变量编码: one-hot encoding, WOE等编码
    –变量衍生:需要强背景知识 +
    –相关性分析: 两两相关性分析
    –多重共线性分析: 一个变量和多个变量的共线性分析
    –变量选择: 基于模型的方法,过滤法和嵌入法。可以用随机森林进行重要性排序,选取最大累积贡献值的变量作为输入变量
    – 模型的训练和优化
    – 模型评估
    – 评分卡创建
    – 模型开发报告

3.模型验证阶段

  • 模型复现
  • 模型比较

4.上线部署与模型监控

申请评分卡

评分卡模型对借款人信用状态评估,预测未来产生违约行为的概率。

需求特点

  1. 要审批授信够快,凸显平台优势
  2. 授信质量要保证

数据好坏样本定义

  1. 评分卡模型是监督模型,需要标签,那么如何定义正负标签?

滚动率分析模型

列表
行表示时间
列表示状态转移,比如c-M1,M1-M2,M2-M3…
c表示用户正常还款
M1表示超过还款日1~30天但未超过30天,即逾期一月内还款
M2表示逾期1个月到两个月内
依次类推。
计算出c-M6,M1-M6,M2-M6等等的样本百分比,然后以累积滚动率大于某个阈值的M几+的样本作为坏样本。

观察期

账龄分析

通过账龄分析确定观察期,横坐标为月份,纵坐标为坏样本率。看什么时候坏样本率曲线平缓。那个间隔就可以设定为观察期。

表现期

一般3~6个月

RFM 和 RFMP

最近一次消费(Recency),消费频率(Frequency),消费金额(Monetary)
最近一次消费(Recency),消费频率(Frequency),消费金额(Monetary),Percentage(消费比例)

卡方检验

就是统计样本的实际观测值理论推断值之间偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,

如果卡方值越大,二者偏差程度越大;
反之,二者偏差越小;
若两个值完全相等时,卡方值就为0,表明理论值完全符合。

卡方分箱和快速卡方分箱

卡方分箱:计算观测值之间的卡方值,根据卡方值的大小,进行两两合箱,直到满足条件停止合箱。

快速卡方分箱:先对样本进行等频或等距分箱后再使用卡方分箱,这样,在保证分箱正确性的同时,提升了计算效率

卡方分箱在这里插入图片描述
卡方检验
在这里插入图片描述

IV值 和 WOE

IV: information value
WOE: weight of evidence 表示了比例的差异性。
如果WOE的绝对值越大,这种差异就越明显,绝对值越小就表明差异不明显。
如果WOE为0,此时这个分箱就无预测能力

请回忆:

  • log几率是什么?
  • 几率是什么?
  • log几率和WOE有什么联系?
  • 这和逻辑回归有什么关系?

传送门1
传送门2

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

万物琴弦光锥之外

给个0.1,恭喜老板发财

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值