信贷逾期预测,LightGBX模型

本文介绍了在互联网金融风控中,如何利用LightGBM构建信贷逾期预测模型。首先,通过数据处理选择关键特征,排除空值和重复值。接着,通过小提琴图分析数据分布,识别并处理异常值。最后,建立了模型,并未进一步描述模型评估细节。
摘要由CSDN通过智能技术生成


 本文介绍了利用LightGBX模型进行贷款逾期预测的方法。

背景

 互联网金融的核心在于风控,风控决定了互联网金融企业的竞争力。信用评分模型属于二分类模型,目标变量是客户是否“违约”,输出结果为客户“违约”概率。

数据处理

 先对数据进行了主观挑选,将认为有用的数据特征挑选出来。然后,过滤掉整列数据为空的列(true表示全为空),过滤掉整列数据全部相同的列(true表示全部相同)

col = data.count() == 0  # 返回bool数组
print(col)
for i in range(len(col)):
    if col[i]:
        data.drop(labels=col.index[i], axis=1, inplace=True)
data.T.duplicated()

 由于数据特征比较多,对挑选出的数据进行预览。查看数据缺失大于20%的值。

#加载需要的模块
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#导入数据
data = pd.read_csv("D:/dealdata.csv",encoding="gbk", index_col=0, low_memory=False)  
#Train_data = pd.read_csv('D:/dealdata.csv', sep="\t")
check_null = data.isnull().sum().sort_values(ascending=False)/float(len(data)) 
print(check_null[check_null > 0.2]) # 查看缺失比例大于20%的属性。
data.head()

 数据清洗,将出生日期转化为年龄,将AMT_LMT列转换为float类型。


#intdex_col为不读取文件的第一列
data = pd.read_csv("D:/dealdata.csv",encoding="gbk", index_col=0)
#将AMT_LMT列转换为float类型
data['AMT_LMT']=data['AMT_LMT'].astype(float)
#将BIRTH_DAY列为空的全部补0删除 并计算年龄
data['BIRTH_DAY']=data[<
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值