项目概述:
- 比赛数据:
"拍拍贷"提供的数据包括信用违约标签(因变量)、建模所需的基础与加工字段(自变量)、相关用户的网络行为原始数据,数据字段已经做脱敏处理。本次实战采用的是初赛数据,包括3万条训练集和2万条测试集。数据文档包括:
-
Master:每一行代表一个样本(一笔成功成交借款),每个样本包含200多个各类字段。
-
Log_Info:借款人的登陆信息,每个样本含多条数据。
-
Userupdate_Info:借款人修改信息,每个样本多条数据。
- 比赛规则:
基于训练集数据构建预测模型,使用模型计算测试集的评分(评分数值越高,表示越有可能出现贷款违约),评价标准为AUC。
建模思路:
-
数据清洗工作,主要做一下缺失值处理,常变量处理,空格符处理,字符大小写转换等
-
特征处理工作,分为特征转换和特征衍生。主要做了以下工作:
-
Master数据:地理位置信息的处理(省份,城市),运营商和微博特征的转换,以及对排序特征,periods特征的交叉组合等。
-
Log_Info数据:衍生出"累计登陆次数","登录