一、分析背景和目的
Lending Club是P2P界的鼻祖,创立于2006年,主营业务是为市场提供P2P贷款的平台中介服务,公司总部位于旧金山。P2P 是一种将小额资金聚集起来借贷给有资金需求人群的一种民间小额借贷模式。Lending Club就是专业直接连接了个人投资者和个人借贷者,通过此种方式,缩短了资金流通的细节,尤其是绕过了传统的大银行等金融机构,使得投资者和借贷者都能得到更多实惠、更快捷。
本文选取的数据集便来自Lending Club公司的贷款数据,数据集是该公司2007年到2018年第二季度的贷款数据,来源于kaggle。
https://www.kaggle.com/wendykan/lending-club-loan-data
由于时间跨度之大,导致该数据集的数据非常之多,我用文件分割器和SAS导入数据均可看到该数据集有2260668条数据,而EXCEL单个SHEET 最多只能存储1048575条数据,所以用整个数据集的数据在EXCEL里做分析是非常不切实际的,所以这里的处理方法是将文件进行分割后,选择其中的一个文件里的数据来做下面的分析,以此检验之前的学习成果。
该数据总共有145个字段,部分字段如下:
通过对该数据集的分析,包括贷款整体情况分析、不同贷款状态各维度的对比分析,可以对目前的贷款情况有充分的了解,并用于指导后续贷款政策的改进和贷款业务开展,让公司更好地规避风险、提高收益。
二、分析思路
2.1 思维导图
2.2 提出问题
(1)该公司的贷款整体情况如何?包括其贷款状态分布如何?贷款金额集中在哪些范围?客户偏好哪种期限的贷款?
(2)不同贷款状态下的客户,其贷款产品从金额、期限及利率方面是如何表现的?说明了什么问题?
(3)不同贷款状态下的客户,其贷款目的主要是什么?
(4)不同贷款状态下的客户的信用等级、负债比及地址分布情况如何?说明了什么问题
三、分析内容
3.1 数据清洗
(1)选择子集
根据以上的分析思路,本文选取以下字段所在列