R语言学习#2-使用C5.0决策树识别高风险银行贷款

饶晓黎

已于 2023-10-04 19:59:02 修改

阅读量567

点赞数 3

文章标签： r语言学习决策树

于 2023-10-04 19:58:28 首次发布

本文链接：https://blog.csdn.net/xiaoli_rao/article/details/133295971

版权

使用C5.0决策树识别高风险银行贷款

实验目的

根据银行过去的历史数据，包括贷款者的主要特征、贷款金额、是否违约等数据样本，建立决策树模型，用于预测新样本是否可以贷款

实验要求

1、利用已发生的1000多条数据样本，20个条件属性包括支票余额、期限、信用记录、用途、贷款金额、储蓄余额、工作年限、利率、个人状态、债务、居住时间、财产、年龄、还贷计划、住房、信用卡数量、主从卡、有无电话、是否老外、工作；1个结论属性：是否违约。建立决策树分类模型；

2、对于新样本，根据准备贷款人的特征，预测输出审批通过或拒绝。

实验原理

基于R语言与数据样本，建立决策树模型。对模型进行训练、评估和优化。

实验仪器、设备、材料或软件等

1、Windows环境

2、R 3.6.3 安装

3、Rstudio 安装

已装跳过

实验内容及步骤

一、环境准备

Windows 环境
R3.6.3 安装
RStudio 安装

二、收集数据

训练样本和测试样本（文末有链接）
将数据文件放入目录

三、数据预处理

载入数据文件

credit <- read.csv(“credit.csv”)

查看数据字段定义

str(credit)

看支票余额的分布情况

使用指令“table(credit$checking_balance)”，可以看到数据存在四个区间：“< 0 DM”、“> 200 DM”、“1 – 200 DM”和“unknown”。可见，其中有存款，说明风险较低。其中DM是德国马克，一种货币。

查看存款余额的分布情况

“table(credit$savings_balance)”查看存款余额的分布情况，可见五个区间：“< 100 DM”、“101 – 500 DM”、“501 – 1000DM”、“> 1000 DM”和“unknown”。说明银行有存款，贷款风险低。

查看货款期限的月分布情况

使用“summary(credit$months_loan_duration)”可以查看贷款期限的月分布情况

从数据中可以得知：最小值、第一四分位数、中位数、平均数、第三四分位数和最大值。可见其中Mean平均数（20.9）大于Median中位数（18.0），而第三四分位数（24.0）也大于中位数（18.0），则说明数据呈右偏分布，属于中存在一些较大的极端值。

通过直方图可以更好地观测数据“hist(credit$months_loan_duration)”：

从图中可以看出，数据中存在两个较大的极端值。

查看贷款金额的分布情况

使用指令“summary(credit$amount)”查看贷款金额的分布情况。从结果中可以看出Mean > Median，数据呈右偏分布。直方图如下：

违约分布情况

查看违约的分布情况，可以看出数据中是否违约的数量，其中1为正常、2为违约，那么也就是有30%的违约率。

生成随机数

设置随机种子“set.seed(12345)”。

随机排序样本

“Credit_rand <- credit[order(runif(1000)),]”，其中runif返回0`1之间1000个数；order按1000个数排列大小并返回位置。

拆分出训练集和测试集

训练集“credit_train <- credit_rand[1:900,]”：

测试集“credit_train <- credit_test[901,1000,]”：

图片所示只是其中一部分。

检查训练集和测试集的类别分布

分别使用指令“prop.table(table(credit_train$default))”和“prop.table(table(credit_rest$default))”来查看训练集和测试集的类别分布，可见两者均接近原始比例。

四、训练模型

安装C5.0算法包

install.packages(“C50”)

加载算法库

library(C50)

建模（属性+类别）

将类别转换为因子形式（default列中存在的yes或no转换）:

credit_train$default <- as.factor(credit_train$default)

生成模型，排除结论属性

Credit_model <- C5.0(credit_train[-17],credit_train$default)

查看模型

credit_model

credit_model：这是创建的C5.0分类模型的对象或名称。
Call：这是模型的调用信息，显示了模型的构建方式。在这里，它指明了使用了C5.0算法，对credit_train[-17]（即去掉第17列的特征）进行分类，目标变量是credit_train$default。
Classification Tree：这表明构建的是一棵分类树，用于将数据分为不同的类别。
Number of samples：这表示模型训练时使用的样本数量，这里是900个样本。
Number of predictors：这是指模型用于进行分类的预测变量（特征）的数量，这里是20个。
Tree size：这是生成的分类树的大小，即树中的节点数目，这里是57个。
Non-standard options：这是一些非标准选项的提示信息，其中包括“attempt to group attributes”，这可能是指模型在构建树时尝试将某些属性（特征）进行分组或处理。