贷款用户逾期问题Task1

项目介绍

这是数据挖掘组队学习的一个任务,简单说明:这份数据集是金融数据(非原始数据,已经处理过了),我们要做的是预测贷款用户是否会逾期。表格中 “status” 是结果标签:0表示未逾期,1表示逾期。

要求:数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018

任务1:对数据进行探索和分析。时间:2天
数据类型的分析
无关特征删除
数据类型转换
缺失值处理
……以及你能想到和借鉴的数据分析处理

数据梳理

打开data.csv,数据集有4700多个样本,将近90个样本特征……

我们先梳理一下各个特征的代表含义:

custid:信用卡ID(无意义)
trade_no:交易号?(无意义)
bank_card_no:卡号(无意义)
low_volume_percent:
middle_volume_percent
take_amount_in_later_12_month_highest:最后12个月总交易
trans_amount_increase_rate_lately:交易增长率
trans_activity_month:月交易活跃度
trans_activity_day:日交易活跃度
transd_mcc
trans_days_interval_filter
trans_days_interval
regional_mobility:区域流动,有用
student_feature:是否学生,很有用,但缺失值很多
repayment_capability:还款能力()
is_high_user:是否高用户?
number_of_trans_from_2011:自2011的交易数量
first_transaction_time:第一次交易时间
historical_trans_amount:历史交易笔数
historical_trans_day:历史交易天数
rank_trad_1_month:一个月交易排名
trans_amount_3_month:三个月内交易总数
avg_consume_less_12_valid_month:12个月有效交易平均数
abs:??
top_trans_count_last_1_month:
avg_price_last_12_month:12月内交易平均价格
avg_price_top_last_12_valid_month:有效百分比,有缺失值
reg_preference_for_trad:几线城市
trans_top_time_last_1_month:一个月次数
trans_top_time_last_6_month:六个月
consume_top_time_last_1_month:
consume_top_time_last_6_month: #和上面一样的
cross_consume_count_last_1_month:??
trans_fail_top_count_enum_last_1_month
trans_fail_top_count_enum_last_6_month:交易失败计数
trans_fail_top_count_enum_last_12_month
consume_mini_time_last_1_month:
max_cumulative_consume_later_1_month:最大消费累计后1个月
max_consume_count_later_6_month:最大消费计数后6个月
railway_consume_count_last_12_month:铁路消耗在过去12个月计算
pawns_auctions_trusts_consume_last_1_month
pawns_auctions_trusts_consume_last_6_month:典当拍卖信托在过去6个月消耗
jewelry_consume_count_last_6_month:珠宝交易
status:是否逾期还款,预测值
source:都一样
first_transaction_day::所有交易天数??
trans_day_last_12_month:12个月后交易天数??
id_name:姓名没用
apply_score:统计申请
apply_credibility:可信的申请
query_org_count:查询计数
query_finance_count:查询财政??
query_cash_count:查询支付
query_sum_count:总和
latest_query_time:组后查询时间
latest_one_month_apply:申请次数
latest_three_month_apply
latest_six_month_apply
loans_score:贷款方面的
loans_credibility_behavior 下面都是一些关于贷款的信息,就没有仔细看了
loans_count
loans_settle_count
loans_overdue_count
loans_org_count_behavior
consfin_org_count_behavior
loans_cash_count
latest_one_month_loan
latest_three_month_loan
latest_six_month_loan
history_suc_fee
history_fail_fee
latest_one_month_suc
latest_one_month_fail
loans_long_time
loans_latest_time
loans_credit_limit
loans_credibility_limit
loans_org_count_current
loans_product_count
loans_max_limit
loans_avg_limit
consfin_credit_limit
consfin_credibility
consfin_org_count_current
consfin_product_count
consfin_max_limit
consfin_avg_limit
latest_query_day
loans_latest_day


# Imports导入基本的库

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import pandas as pd
from pandas import Series,DataFrame

from sklearn.model_selection import train_test_split

sns.set_style('whitegrid')
%matplotlib inline

#导入数据
data_df = pd.read_csv("E:/learning with zhangyi/数据挖掘实践组队学习/data.csv",encoding = 'gbk')
data_df.head()

# 观察数据 和 数据类型
data_df.info()

数据分割


# 数据切分方式 - 三七分,其中测试集30%,训练集70%,随机种子设置为2018

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=2018)

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

X_train_scled = scaler.fit_transform(X_train)
X_test_scaled = scaler.fit_transform(X_test)

删除无关特征

#删除一些不需要的特征变量
data_df.drop(['custid','trade_no','bank_card_no','id_name'],axis=1,inplace=True)

缺失值处理

众数,随机森林??

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值