目录
项目背景
分析思路
- 熟悉数据:导入数据、熟悉数据、分类变量。
- 数据清洗:统一变量名、缺失值处理、重复值和异常值处理
- 逾期用户画像:用户基本信息分析、用户行为信息分析
- 不良率分析:随记录时间变化趋势、与年龄性别的相关性、与初始评级的相关性、与借贷信息的相关性
- 总结与建议
理解数据
- 还款情况:与还款相关变量
- 基本属性:年龄、性别、学历
- 行为属性:手机认证、视频认证、网页认证、浏览认证
- 借贷信息:借贷金额、借贷期限、借贷利率等
- 交易信息:客户发生交易行为数据。如:购物等
数据预处理
为属性重命名
统计变量的缺失情况,为缺失率做分析,
- 下次计划还款利息、上次还款利息
- 历史成功借款金额(当我们无法得知数据为什么缺失的时候,我们应该取问问业务部门)
- 认证信息:户口认证、学历认证、淘宝认证、征信认证(只保留成功认证和未成功认证)
重复值的处理
在业务部门中确定很多东西
数据分析(构建模型)
- 不同性别的放贷比率与逾期表现(那种性别放贷风险高)
- 通过透视表pivot_table(data,columns,index,value,aggfunc=np.size)
-
- 不同年龄放贷比率与逾期表现:各个年龄段借款金额的占比和cursum向前求和.分析得到36岁之前借款金额占百分之八十。年龄段在23到27岁借款已经占据百分之八十,55岁之后借款非常少
- 各年龄段与贷款比数的情况:使用cut对年龄进行分段,按照不同年龄段统计贷款比数。
- 年龄在25到30岁之间的借款在44.9%左右,逾期占比也是3.07%,逾期占比比较高的在55岁以上,24-30之间的用户贷款比较多,逾期比较少,可能是这个年龄段的人对贷款的需求比较高,收益也比较快
- 学历认证成功与逾期的关系(不同的学历--是否认证--认证成功逾期占比与认证不成功逾期占比)
- 淘宝认证:进行过淘宝认证的人群逾期会宽泛一点
- 手机认证,视频认证,户口认证
总结和建议
总结
- 男性借款指数是女性借款指数的近两倍,逾期男性用户也要高于女性用户
- 学历认证和未认证人群比例1:1,相比之下进行过学历认证的人群逾期指数会低一点
- 36岁一下的人口占比80%,25-30之间借款指数占比35%,平台主力军,可以为这些人做一些营销活动,吸引人群,增加用户量,55岁以上用户逾期占比比较高,这部分用户以后需要严格审核
建议
- 年龄在55岁以上,学历比较低,未进行成功认证的人群以后要严加审核
- 年龄在26-35之间的用户占整个用户比重的80%,逾期率也比较低,这部分客户我们应该想办法吸引
- 平台不要认为认证成功的人群不是很可靠,对认证成功的用户也要严格审核
技术点
- 最常用的就是pivot_table()和groupby()函数