C5.0决策树算法及性能提升

最新推荐文章于 2024-03-13 06:16:00 发布

高盘之上

最新推荐文章于 2024-03-13 06:16:00 发布

阅读量9.6k

点赞数 1

本文介绍了C5.0决策树算法，通过UCI机器学习网站上的信贷信息数据集进行实例演示。基础算法运作中，模型在测试集上的准确率为74%。为了提升性能，文章探讨了引入代价矩阵和自适应增强算法（boosting）。代价矩阵降低了违约用户被误判的比例，而boosting算法的应用并未显著提高预测准确率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

C5.0算法是基于C4.5开发的新版本，它能适用于很多类型的问题，同神经网络、支持向量机等复杂算法相比，它几乎可以表现地一样优秀，并且更容易理解和部署。这里我们将用UCI机器学习网站http://archive.ics.uci.edu/ml/index.php上信贷信息数据集介绍该算法，并讨论该算法下的模型性能提升。（数据可点击打开链接下载）

该数据集包含了1000个信贷案例，一共有17个变量，其中default表示贷款申请者是否违约，从下图可以看出违约的人数占到了30%。

接下来我们将判定什么样的人最可能违约。

一、基础算法运作

首先，随机抽取训练集和测试集

>set.seed(111)

>train_sample<-sample(1000,900)

>credit_train<-credit[train_sample,]

>credit_test<-credit[-train_sample,]

查看测试集和训练集是否可以代表整体

训练集和测试机上default值的分布与整体趋近，故我们认为可以代表整体。

接着进行决策树运算

>library(C50)

>credit_model<-C5.0(credit_train[-17],credit_train$default) ##训练数据框要删除分类因子向量

得到的决策树包含57个决策，可用summary(credit_model)来查看。

接下来，用测试集来评估模型credit_model的性能

>credit_pred<-predict(credit_model,credit_test)

>table(credit_test$default,credit_pred)

可知，模型的准确预测率为74%，而错误率为26%；实际是非违约的，被预测为违约的有12个；实际是违约的，被预测为非违约的有14个（14%），这种情形会给银行带来的很大的损失。

二、性能提升

（1）引入代价矩阵

用上面的分析我们知道，当模型把违约的用户错误的划分为非违约用户所带来的损失要远大于把非违约用户划为违约用户。而C5.0算法允许我们将一个惩罚因子分配到不同类型的错误上。

因此，我们可以通过设定代价矩阵来指定每种错误相对于任何其它错误的严重程度。

>matrix_deminsions<-list(c("no","yes"),c("no","yes")) ##确定矩阵的维度

>names(matrix_deminsions)<-c("predicted","actual") ##命名矩阵的维度

>error_cost<-matrix(c(0,1,4,0),nrow=2,dimnames=matrix_deminsions) ##得到代价矩阵如下所示

引入代价矩阵的决策树算法

>credit_cost<-C5.0(credit_train[-17],credit_train$default,costs=error_cost)

>credit_cost_pred<-predict(credit_cost,credit_test)

尽管在这样情形下的预测准确率只有54%，但是将违约的用户识别为非违约用户的比例由之前的14%下降到了6%，而非违约用户识别为违约用户的比例则上升到40%，可以说这个模型是一个偏向于保守的模型。

（2）引入自适应增强算法

自适应增强算法是通过将很多能力较弱的学习算法组合在一起，使得这样的组合算法比任何单独的算法都强很多。在C5.0算法中，可以通过参数 trials，引入boosting算法，表示在模型中使用的独立决策树的数量。

>credit_boost10<-C5.0(credit_train[-17],credit_train$default,trials=10) ##以10个独立决策树组合为例

>credit_boost_pred10<-predict(credit_boost10,credit_test)

然而，好像并没有什么效果～～

博客等级

码龄15年

4
原创

21
点赞

86
收藏

19
粉丝

关注

私信

热门文章

最新评论

客户流失预测--基于R语言C5.0
m0_56262145: 出现这个错误怎么解决c50 code called exit with value 1
R语言网页抓取入门-rvest包
kangyajun: 最后命名无法运行是因为右括号是中文的表情包，感谢作者大大的分享
C5.0决策树算法及性能提升
W.R.H 回复 LuckyPuss: 你好，请问你成功找到python引入代价矩阵的方法了吗，我最近也遇到了这个问题
R语言数据清洗与规整-回归模型为例
gxw123456_: 大佬还有数据文件吗，源地址挂了
R语言网页抓取入门-rvest包
Lynn.Hsiang: >names(policy)<-c("时间","标题","链接"）#对数据框的字段进行重命名中在names(policy)加上[]应该就可以了，即names(policy)[]<-c("时间","标题","链接"）

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。