【机器学习】银行贷款违约预测

使用二分类逻辑回归识别贷款违约风险

为了说明逻辑回归的应用场景,这里引入一个案例,该案例有关银行贷款违约,我们使用二分类逻辑回归来评估信用风险,如果您是银行的贷款人员,那么您希望能够识别那些指示可能违约贷款的人的特征,并使用这些特征来识别不良的贷款。

这里我们使用的数据集假设有850位以往客户的贷款信息,前700个案例是以前给予贷款的客户,这些客户的违约情况是已经知道的,使用这700位客户的随机样本来创建逻辑回归模型,将剩余的150名客户用来进行验证分析。 然后使用该模型对150名潜在客户进行分类,判断是否存在信用风险,即判断这些用户是否会发生违约。

# 导入需要使用的库
import pandas as pd
from sklearn.cross_validation import train_test_split
# 导入并查看数据集
bankloan = pd.read_excel("./data/bankloan.xlsx")
bankloan.head()
ID年龄教育工龄当前地址居住年限收入负债率信用卡负债其他负债违约
0141大专17121769.311.3593925.008608
1227未完成高中1063117.31.3622024.000798
2340未完成高中1514555.50.8560752.168925
3441未完成高中15141202.92.6587200.821280
4524高中202817.31.7874363.056564
bankloan.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 850 entries, 0 to 849
Data columns (total 13 columns):
ID          850 non-null int64
年龄          850 non-null int64
工龄          850 non-null int64
当前地址居住年限    850 non-null int64
收入          850 non-null int64
负债率         850 non-null float64
信用卡负债       850 non-null float64
其他负债        850 non-null float64
违约          850 non-null object
大学          850 non-null uint8
未完成高中       850 non-null uint8
研究生         850 non-null uint8
高中          850 non-null uint8
dtypes: float64(3), int64(5), object(1), uint8(4)
memory usage: 63.2+ KB
bankloan.教育.unique()
array(['大专', '未完成高中', '高中', '大学', '研究生'], dtype=object)

建立训练数据集与测试数据集

  • 数据集中,有850条记录,其中700条已经打好违约标签,另外150条需要使用训练得到的模型进行预测
  • 打好标签的700条记录将被随机分成训练集与测试集,训练集与测试集的比例一般为7:3(并不总是如此)

由于教育为多分类变量,需要先将其转换成二分类变量,并且纳入模型的数据集不应该包含原来的分类变量

# 将教育变量转换成二分类变量,并删除原有多分类变量
bankloan = pd.concat([bankloan,pd.get_dummies(bankloan.教育,drop_first=True)],axis=1).drop(['教育'],axis=1)
# 提取建模用数据
model_data = bankloan[:700]
# 提取需要进行预测的数据
predict_data = bankloan[700:]
#Define a generic function using Pandas replace function
def coding(col, codeDict):
  colCoded = pd.Series(col, copy=True)
  for key, value in codeDict.items():
    colCoded.replace(key, value, inplace=True)
  return colCoded
 
# 是=1, 否=0:
model_data["违约"] = coding(model_data['违约'], {'否':0,'是':1})
# 将自变量与因变量分开
X,y = model_data.drop(['违约','ID'],axis=1),model_data[['违约']]
# 随机抽取训练集与测试集
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size = 0.3,random_state = 10)

训练模型

# 导入逻辑回归需要使用的Python模块
from sklearn.linear_model import LogisticRegression
# 开始构建一个逻辑回归模型
model = LogisticRegression()
# 模型以X_train,y_train为输入数据进行训练
model.fit(X_train,y_train)

使用测试集查看模型预测准确性

# 导入相应的模块来查看预测的准确率
from sklearn.metrics import accuracy_score
# 打印针对测试集而言的准确率
print(accuracy_score(y_test,model.predict(X_test)))
0.819047619047619

使用训练得到模型对这些新申请贷款的人的违约风险进行预测

model.predict(predict_data.drop(['ID','违约'],axis=1))
array([0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int64)
【资源介绍】 基于python实现的银行个贷违约预测源码+项目说明+数据集.zip 该项目是个人毕设项目,答辩评审分达到95分,代码都经过调试测试,确保可以运行!欢迎下载使用,可用于小白学习、进阶。 该资源主要针对计算机、通信、人工智能、自动化等相关专业的学生、老师或从业者下载使用,亦可作为期末课程设计、课程大作业、毕业设计等。 项目整体具有较高的学习借鉴价值!基础能力强的可以在此基础上修改调整,以实现不同的功能。 欢迎下载交流,互相学习,共同进步! 背景 ``` 为进一步促进金融普惠的推广落地,金融机构需要服务许多新的客群。 银行作为对风险控制要求很高的行业,因为缺乏对新客群的了解, 对新的细分客群的风控处理往往成为金融普惠的重要阻碍。如何利用银行现有 信贷行为数据来服务新场景、新客群成了一个很有价值的研究方向, 迁移学习是其中一个重要手段。 ``` 任务描述 ``` 本赛题要求利用已有的与目标客群稍有差异的另一批信贷数据, 辅助目标业务风控模型的创建,两者数据集之间存在大量相同的字段和极少的共同用户。 此处希望大家可以利用迁移学习捕捉不同业务中用户基本信息与违约行为之间的关联, 帮助实现对新业务的用户违约预测。 ``` 数据描述 - 训练数据 - train_public.csv:个人贷款违约记录数据 测试数据 - test_public.csv:测试数据集 评价指标 使用ROC曲线下面积AUC(Area Under Curve)作为评价指标。AUC值越大,预测越准确。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小刘要努力。

顺便点一个赞

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值