决策树算法学习笔记(提升篇)

本文探讨了决策树算法的优化方法,包括如何处理连续值、修剪枝叶以防止过拟合,以及调参注意事项。介绍了前剪枝和后剪枝的概念,以及在处理连续值时采用的二分法策略。在调参时,强调了特征选择和限制决策树深度的重要性,特别是对于类别不平衡的数据集,建议使用class_weight参数。
摘要由CSDN通过智能技术生成

声明:本文虽有部分自己理解成分,但是大部分摘自以下链接。
决策树(decision tree)(三)——连续值处理
决策树参数讲解+实例
数据挖掘十大算法

C4.5算法的改进:

用信息增益率来选择属性。

在树构造过程中进行剪枝,在构造决策树的时候,那些挂着几个元素的节点,不考虑最好,不然容易导致overfitting。

对非离散数据也能处理。

能够对不完整数据进行处理。

修剪枝叶

原因:避免产生过拟合

  • 前剪枝叶:在构造决策树的同时进行剪枝。在决策树构建中,如果无法进一步降低信息墒的情况下就会停止创建分支。为了避免过拟合,可以设定一个阀值,信息墒见效的数量小于这个阀值,即是还可以继续降低熵也停止继续创建分支。这种方法就是前剪枝。构造树时,即限定增加该节点时增加的熵是否会低于阈值来判断是否增加这个节点
  • 后剪枝:后剪枝是指决策树构造完成后进行剪枝。剪枝的过程是对拥有同样符节点的一组节点进行检查,判断如果将其合并,信息墒的增加量是否小于某一阀值。如果小于阀值即可合并分支。成功构建树后,通
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值