租赁风控模型之决策树
前言:基于(手机类目风控因子表),对用户租赁数据进行业务分析、用户画像、多维变量和相关性分析。数据分析的最终目的是赋能于业务,在租赁场景中最直接的体现是:通过数据判断,用户中哪些是good用户,哪些是bad用户,他们都有什么共性和异性。通过决策树建模分析后,如果新用户租赁时,根据授权填写的各项信息,进行判断该用户是good用户还是bad用户,应不应该给予租赁。
1. 数据预处理
-
对数据进行常规的处理,包括:导入数据分析相关的包、可视化包、防止出现中文乱码、备份原有warnings过滤器、读取文件、查看缺失率大于10%的列、删除字段、字段重命名忽略、缺失值处理以及对数据字段进行编码等。
-
因为这里利用决策树,在此租赁场景设定只有“可租赁”和“不可租赁”两个选择,结果为二分类。目标变量为“是否m21”(是否逾期/是否租赁),对其进行编码:定义pass(可租赁/不逾期)为0,reject(不可租赁/逾期)为1。
2. 业务分析
a. 租赁业务分析
i. 订单月份交易量与商品押金变化走势
- 从图中看出,交易量和商品押金成正相关,商品押金随交易量的变化而变化。
b. 商品押金与期数天数分布
i. 商品押金分布
- 从图中看出,商品押金范围多集中在400-800元,中位数在600左右。