拍拍贷业务数据探索分析-基于R语言

=======================================================

1.前言

根据百度百科和官网:拍拍贷成立于2007年6月,公司全称为“上海拍拍贷金融信息服务有限公司”,总部位于国际金融中心上海,是中国第一家网络信用借贷平台(P2P)。拍拍贷是国内第一家由工商部门特批,获得“金融信息服务”经营范围许可,得到政府认可的互联网金融平台。它主要提供一个借、贷的中介平台,撮合出借人、投资人双方达成交易。2017年于美国纽交所成功上市,11年来累计用户数过8000万,累计成交金额过1300亿,累计为用户赚取过48亿。
本项目通过研究拍拍贷2015-01-01到2017-01-30的所有信用标的10%样本,探索其中的一些规律,并对借款金额、利率、信用评级等进行初步研究。本项目只研究LC数据集。

#2 加载探索分析需要的包及数据

根据项目需要,加载ggplot2、knitr、dplyr、scales、memisc和gridExtra包。
library(ggplot2)
library(knitr)
library(dplyr)
library(scales)
library(memisc)
library(gridExtra)
加载数据(使用拍拍贷的LC数据集,注意这里需要指定编码,使用fileEncoding=‘UTF-8’,不然会出现乱码或列标签与内容对不上)
setwd('E:/udacity/udacity data/R/project/a')
lc<-read.csv('LC.csv',fileEncoding ='UTF-8')

3 观察数据的基本情况

summary(lc)
结论:
lc表主要是与借款人相关的资料,共有21列,328553条数据;借款金额为100-500000万元,借款期限为1-24期,借款利率为7%-24%(法定最高借款利率),借款人年龄主要分布在18-65岁之间,借款性别中男女比约为1.9:1,与网上经常看到的各种相关新闻不太一致;多数借款人未经过认证;最大借款次数高达649次,最大借款累计金额高达740万,最大逾期达60期。

4 准备工作

4.1 数据类型及处理

观察lc表数据类型,只有整型、浮点数和factor变量三种,其中有以下问题需要处理:

4.1.1 日期需要进行分组

str(lc)
lc$year<-format(as.Date(lc$借款成功日期),'%y')
lc$month<-format(as.Date(lc$借款成功日期),'%m')
lc$day<-format(as.Date(lc$借款成功日期),'%d')

4.1.2 新建认证条数列统计认证成功的总数

成功认证赋值为1,未成功认证赋值为0,最大认证条数为6,最低认证条数为0;然后将认证条数列更改为factor类型以便后面统计。
lc$认证条数 <- (lc$手机认证=='成功认证') + (lc$户口认证=='成功认证') + 
  (lc$视频认证=='成功认证') + (lc$学历认证=='成功认证') + 
  (lc$征信认证=='成功认证') + (lc$淘宝认证=='成功认证')

lc$认证条数<-factor(lc$认证条数,levels=c(0:6),
                labels=c('0','1','2','3','4','5','6'))
str(lc)

4.1.3 划分年龄段

根据经验按照22/27/32/37/42/47/52/57划分年龄段
lc$年龄段<-cut(lc$年龄,breaks=c(17,22,27,32,37,42,47,52,57),include.lowest=T)

5 单变量探索

5.1 借款金额

探究借款金额的分布,选用频率直方图;为尽量探究一般行为,找出大众规律,使用geom_vline找出95%置信区间的范围,后面多采用类似方法。
qplot(x=借款金额,data=lc,binwidth=0.01,ylab=('计量值'),fill=I('#F97420'))+
  scale_x_log10(breaks=c(0,100,500,1000,5000,9000,50000,200000,500000))+
  scale_y_sqrt()+
  geom_vline(xintercept =quantile(lc$借款金额,probs=0.975,na.rm=T),
             linetype='dashed',color='blue')+ 
  geom_vline(xintercept =quantile(lc$借款金额,probs=0.025,na.rm=T),
             linetype='dashed',color='blue')
  
结论:95%置信区间的借款金额集中在500至9000元之间。根据拍拍贷最新官网信息,借款额度不能低于1000元。这其中出现的1000元以下的借款可能是因为2017年以前的规定不一样。另外,人们的借款金额更多为1000的整数倍,这与常识相符。

5.2借款期限

观察借款期限的分布,选用频率直方图
qplot(x=借款期限,data=lc,binwidth=1)+
  scale_x_continuous(lim=c(1,25),breaks=seq(1,25,2))
结论:借款期限绝大多数为12个月、6个月,另外还有少量为9个月,其他的借款期很少。
  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值