贷款用户逾期问题Task1

最新推荐文章于 2019-08-09 17:33:42 发布

wutong14220

最新推荐文章于 2019-08-09 17:33:42 发布

阅读量335

点赞数

分类专栏：数据挖掘文章标签：贷款逾期

本文链接：https://blog.csdn.net/wutong14220/article/details/98533763

版权

数据挖掘专栏收录该内容

5 篇文章 0 订阅

订阅专栏

贷款用户逾期问题Task1

项目介绍
数据梳理
数据分割
删除无关特征
缺失值处理

项目介绍

这是数据挖掘组队学习的一个任务，简单说明：这份数据集是金融数据（非原始数据，已经处理过了），我们要做的是预测贷款用户是否会逾期。表格中 “status” 是结果标签：0表示未逾期，1表示逾期。

要求：数据切分方式 - 三七分，其中测试集30%，训练集70%，随机种子设置为2018

任务1：对数据进行探索和分析。时间：2天
数据类型的分析
无关特征删除
数据类型转换
缺失值处理
……以及你能想到和借鉴的数据分析处理

数据梳理

打开data.csv，数据集有4700多个样本，将近90个样本特征……

我们先梳理一下各个特征的代表含义：

custid：信用卡ID（无意义）
trade_no：交易号？（无意义）
bank_card_no：卡号（无意义）
low_volume_percent：
middle_volume_percent
take_amount_in_later_12_month_highest：最后12个月总交易
trans_amount_increase_rate_lately：交易增长率
trans_activity_month：月交易活跃度
trans_activity_day：日交易活跃度
transd_mcc
trans_days_interval_filter
trans_days_interval
regional_mobility：区域流动，有用
student_feature：是否学生，很有用，但缺失值很多
repayment_capability：还款能力（）
is_high_user：是否高用户？
number_of_trans_from_2011：自2011的交易数量
first_transaction_time：第一次交易时间
historical_trans_amount：历史交易笔数
historical_trans_day：历史交易天数
rank_trad_1_month：一个月交易排名
trans_amount_3_month：三个月内交易总数
avg_consume_less_12_valid_month：12个月有效交易平均数
abs：？？
top_trans_count_last_1_month：
avg_price_last_12_month：12月内交易平均价格
avg_price_top_last_12_valid_month：有效百分比，有缺失值
reg_preference_for_trad：几线城市
trans_top_time_last_1_month：一个月次数
trans_top_time_last_6_month：六个月
consume_top_time_last_1_month：
consume_top_time_last_6_month： #和上面一样的
cross_consume_count_last_1_month：？？
trans_fail_top_count_enum_last_1_month
trans_fail_top_count_enum_last_6_month：交易失败计数
trans_fail_top_count_enum_last_12_month
consume_mini_time_last_1_month：
max_cumulative_consume_later_1_month：最大消费累计后1个月
max_consume_count_later_6_month：最大消费计数后6个月
railway_consume_count_last_12_month：铁路消耗在过去12个月计算
pawns_auctions_trusts_consume_last_1_month
pawns_auctions_trusts_consume_last_6_month：典当拍卖信托在过去6个月消耗
jewelry_consume_count_last_6_month：珠宝交易
status：是否逾期还款，预测值
source：都一样
first_transaction_day：：所有交易天数？？
trans_day_last_12_month：12个月后交易天数？？
id_name：姓名没用
apply_score：统计申请
apply_credibility：可信的申请
query_org_count：查询计数
query_finance_count：查询财政？？
query_cash_count：查询支付
query_sum_count：总和
latest_query_time：组后查询时间
latest_one_month_apply：申请次数
latest_three_month_apply
latest_six_month_apply
loans_score：贷款方面的
loans_credibility_behavior 下面都是一些关于贷款的信息，就没有仔细看了
loans_count
loans_settle_count
loans_overdue_count
loans_org_count_behavior
consfin_org_count_behavior
loans_cash_count
latest_one_month_loan
latest_three_month_loan
latest_six_month_loan
history_suc_fee
history_fail_fee
latest_one_month_suc
latest_one_month_fail
loans_long_time
loans_latest_time
loans_credit_limit
loans_credibility_limit
loans_org_count_current
loans_product_count
loans_max_limit
loans_avg_limit
consfin_credit_limit
consfin_credibility
consfin_org_count_current
consfin_product_count
consfin_max_limit
consfin_avg_limit
latest_query_day
loans_latest_day


# Imports导入基本的库

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import pandas as pd
from pandas import Series,DataFrame

from sklearn.model_selection import train_test_split

sns.set_style('whitegrid')
%matplotlib inline

#导入数据
data_df = pd.read_csv("E:/learning with zhangyi/数据挖掘实践组队学习/data.csv",encoding = 'gbk')
data_df.head()

# 观察数据 和 数据类型
data_df.info()

数据分割


# 数据切分方式 - 三七分，其中测试集30%，训练集70%，随机种子设置为2018

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=2018)

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

X_train_scled = scaler.fit_transform(X_train)
X_test_scaled = scaler.fit_transform(X_test)

删除无关特征

#删除一些不需要的特征变量
data_df.drop(['custid','trade_no','bank_card_no','id_name'],axis=1,inplace=True)

缺失值处理

众数，随机森林？？

wutong14220

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
贷款用户逾期问题Task1

贷款用户逾期问题#引言这是数据挖掘组队学习的一个任务，简单说明：这份数据集是金融数据（非原始数据，已经处理过了），我们要做的是预测贷款用户是否会逾期。表格中 “status” 是结果标签：0表示未逾期，1表示逾期。要求：数据切分方式 - 三七分，其中测试集30%，训练集70%，随机种子设置为2018任务1：对数据进行探索和分析。时间：2天数据类型的分析无关特征删除数据类型转换缺失值...
复制链接

扫一扫