数据来源:kaggle
百度云:原数据 提取码:bzhm
这只是在学习过程中的练习,如有问题,请多指教。
一、提出问题
1贷款金额的描述统计
2客户的情况对贷款金额的影响
二、数据处理
1.、数据理解
此份数据共有19个字段,截取其中12个字段进行分析,各字段意思如下:
Loan ID 记录ID
Customer ID 客户ID
Loan Status 贷款状况
Current Loan Amount 当前贷款金额
Term 期限
Credit Score 信用
Annual Income 年收入
Years in current job 目前工作时间
Home Ownership 住房情况
Purpose 目的
Monthly Debt 每月账单
Years of Credit History 信用历史
2、数据清洗
(1) 删除重复数据,共删除10215个重复数据,保留89785个数据。
(2) 缺失值处理, Current Loan Amount, Credit Score ,Annual Income,均有缺失值,在进行分析时,将缺失数据删除,并不会影响分析结果。
(3) 在 Current Loan Amount中发现有数据为 99999999 ,超过其贷款最大金额,判定为异常值,将其