day06问题小结
对于历史逾期天数和当前逾期天数有些模糊
-
比如有一笔欠款9.10日要还,但是9.12号才还完,这个就是历史逾期了2天,
-
再比如还是9.10日要还,到今天都还没还,这个就是当前逾期天数10天。
多说一下场景下为什么要这么处理,处理的结果表示什么意思
掌握如何设计AB测试
掌握AB测试效果解读方法
知道常见信贷产品
1 信贷业务逻辑
1.1 信贷业务如何运行
市场部门/风控部门/催收部门
市场部门→获客
风控部门→筛选用户
资金回收(催收部门)
精细化运营
-
市场, 风控, 催收各个环节添加运营手段
1.2 信贷业务行为路径与转化漏斗
-
首贷、复贷概念:
-
第一次借款成功称为首贷
-
借完一次之后, 再次借款称为复贷
-
-
首贷业务逻辑
-
客户 一对多
-
申请 一对一
-
借款 一对多
-
期数 一对多
-
还款
-
-
在我们的数据库中,数据表大致分为两种形式,状态表和log表(日志表)
-
状态表
-
记录当前时刻,或者当天的状态,覆盖历史的状态
-
-
log表
-
记录从开始到现在所有的数据, 有一次操作或者更新就记录一条
-
-
漏斗转化
-
数据表中数据条数对应关系
-
-
2 业务报表介绍
2.1 注册表
-
注册表 u_user
-
一个手机号:对应注册表的一个id
-
一个手机号: 注册完成后, 对应一个user_id , 手机号和人
-
上表中不包含注册未完成的用户
-
2.2 用户信息表
-
用户信息(personal_info)
-
可以通过user_id 字段 与注册表进行关联
-
personal_info之外还有work_info 关于用户不同维度的信息这里在不同的表中保存
2.3 借款表
-
借款表 loan_list
-
每次申请都会有一条记录
-
borrower_id 可以与注册表里的user_id进行关联
2.4 放款表
-
loan_debt, 放款表, 也可以看做是还款计划表
-
这张表是一个状态表, 还款信息只会记录最新的状态
2.5 还款表
-
还款表记录了每一笔还款的情况
-
同一个订单可能会有多次还款
3 风控报表指标
-
市场部门的指标
-
各个阶段转化率
-
注册→申请→通过→放款(首贷)
-
复贷还款→申请→通过→放款(复贷)
-
-
市场部门业务报表
-
转化率漏斗表
-
各个渠道花费及效率
-
每个页面的留存率
-
-
风控部门的指标
-
通过率, 放款, 件均
-
逾期率:
-
单期产品: 整笔逾期, 金额逾期
-
多期产品: 整笔逾期, 金额逾期, 单期笔数,金额逾期
-
-
-
风控部门的业务报表
-
通过率表
-
放款统计表
-
规则命中率
-
客群分布
-
vintage表
-
-
催收的指标
-
催回率
-
不同催收阶段
-
不同催收员的催回
-
-
催收部门的业务报表
-
不同员工不同阶段催回情况表
-
接通率表, 接通时长表
-
-
运营部门
-
指标提升
-
4 风控基础报表介绍
4.1 各阶段转化率表
需要确定
-
统计每天注册的客户中,有多少人进行了申请, 多少人通过, 有多少人放款, 有多少人还款
-
涉及到多张表, 用哪张表做主表
-
这些表怎么合并
-
用到哪些表, 怎么join
-
用户的详细信息在personal_info表中, 用表中的user_id与主表的id相连
-
loan_list 借款申请表 borrower_id 对应注册表中的 id
-
loan_debt 放款表 list_id对应loan_list中的id
-
合并时时left join 如果没走到下一个阶段,则在合并表对应位置时NULL,
-
-
-
按照日期进行分组,分别统计出每个阶段的数量,进而每个阶段相对于前一个阶段的转化率
4.2 通过率表
-
统计每天申请的客户有多少人, 有多少人申请通过
-
user_type 新客老客, 如何区分
-
-
主表:统计申请的情况, 所以主表肯定是申请表
-
定义新客,老客
-
放过款的客户, 再来申请, 就是老客
-
没放过款的客户, 就是新客, 可能是第一次来, 也可能是之前的申请被拒接了
-
所以先计算第一次成功借款时间
-
当前申请时间与第一次成功放款时间比较, 得出新老客定义
-
4.3 放款统计表
1 获取第一次成功放款日期
2 根据这个日期判断是新客还是老客
3 合并loan_debt loan_list u_type
4.4 Vintage报表
-
举例来说,今天是2021年6月25日,我们取今天贷款第一期到期的客户作为观察群体,观察他们今后29天的还款情况。如果你将将今天所有贷款到期的客户作为观察群体(里面有第一期到期的,也有第二期到期的,也有第三期到期的,等等),那么这个群体里面的客户就不是位于同一层面上了。
-
到了下个月,7月25号,我们取7月25号贷款第一期到期的客户作为观察群体,观察他们之后29天的还款情况。这样你就可以比较6月25号的群体和7月25号的群体的还款情况差异
-
如果8月25号的群体还款质量有显著性降低,那么你可能会审视一下你这一个月来的营销策略是否变宽松了,或者这一个月来国家政策有什么改动等等
-
vintage将不同时期的数据拉平到同一时期比较,可以很直观地比较和反思不同时期公司的营销策略的效果。
-
每天到期的贷款的逾期情况,不是按照到期是哪天来看,按照逾期第几天来看,比较放贷的质量随时间的变化情况
4.5 催收报表
-
定义分案归属, 当天最后一次分案算作最终分案归属
-
主表: 分案表, 计算逾期天数还需要loan_debt
-
催收人员可能换组, 利用人名做限制
思路
① 拉宽表
-
数据可能是在不同的表中保存, 取数的时候, 是不是要考虑一些边界条件
-
考虑如何去JOIN 哪张表是主表, 如何JOIN 不会丢信息
② 在宽表的基础上算指标
加减乘除, 在算之前, 每一个指标的计算方法一定要搞清楚
③ 整理结果
5 风控建模概述
5.1 互联网金融风控体系介绍
四要素认证:银行卡持有人的姓名、身份证号、银行卡号、手机号
互联网金融风控体系主要由三大部分组成:
-
用户数据:用户基本信息、用户行为信息、用户授权信息、外部接入信息。
-
策略体系:反欺诈规则、准入规则、运营商规则、风险名单、网贷规则
-
机器学习模型:欺诈检测模型、准入模型、授信模型、风险定价、额度管理、流失预警、失联修复。
5.2 风控建模流程
2.1 评分卡简介
风控模型其中包含了A/B/C卡。模型可以采用相同算法,一般以逾期天数来区分正负样本,也就是目标值Y的取值(0或1)
-
贷前 申请评分卡 Application score card
-
贷中 行为评分卡 Behavior score card
-
贷后 催收评分卡 Collection score card
2.2 机器学习模型的完整工程流程
准备
-
明确需求
-
模型设计
-
样本设计
特征工程
模型
上线运营
2.3 项目准备期
明确需求
模型设计
-
业务抽象成分类/回归问题
Y标签定义
15天为正负样本的标记阈值,Y = 1的客户均是逾期超过15天的客户
将逾期<5天和没有逾期的人作为正样本
逾期5~15天的数据(灰样本)会从样本中去掉
“灰样本”通常放入测试集中,用于确保模型在训练结束后,对该部分样本也有区分能力。
样本选取