经典决策树算法

一、CART算法
1.原理:分类和回归树,可用于分类和回归预测建模问题。
2.通过创建一颗二叉树,允许多样化输入数据类型,如混合连续数值变量或标称分类,枚举变量等。
3.使用代价复杂度剪枝方法将不可靠分支从决策树移除来提高准确率。
4.训练决策树包括迭代地将数据分成两个分支,CART算法使用基尼不纯度量化评估分割好坏。
5.算法流程:
输入训练数据和停止计算条件,递归分类切割生成完整二叉CART分类决策树,
为防止过拟合通过剪枝处理,有预剪枝和后剪枝两种方式。通过历史样本数据测算新数据分类,从根结点开始自上而下找到概率最大叶节点样本类别。

二、CART回归决策树
1.CART算法同时支持分类和回归问题处理,分类问题时使用基尼指数或基尼增益作为选择特征及分割点依据,对回归问题时CART使用均方误差或平均绝对误差作为特征选择和分割点依据。
2.CART决策树的输出为连续值,而分类树则是离散值。
3.每个节点都当作一个回归值,但只有最底层节点回归值可能才是最理想回归值。使用CART进行回归时目标是最小化均方误差。

三、ID3算法
1.ID3算法以Hunt算法为基础用于从数据集生成决策树,只能处理特征属性均为离散数据类型的数据集且不支持剪枝。
2.ID3算法生成为多元树,如S集合以属性A作为分割点,A属性值决定子集个数,主要作为分类决策树,不保证最优解,可能收敛于局部最优解。
3.为避免过拟合应选择较小决策树
4.熵为衡量数据集不确定性大小,熵越高数据越混杂,信息增益为分割前后熵差指标,训练决策树时通过最大化信息增益选择最爱分割。

四、C4.5算法
1.C4.5基于ID3扩展和改善,同样是分类决策树。
2.支持连续特征属性处理,通过挑选排序连续属性阀值
3.特征属性根据信息增益率,避免出现偏向大量取值的特征属性划分,信息增益率为信息增益与特征熵的比值,特征值取值越大特征熵倾向越大。

4.通过叶子结点替换删除无用分支来进行剪枝

五、C5.0算法
1.基于ID3和C4.5改进,也只能用于解决分类问题,采用信息增益率进行特征选择,对比C4.5算法速度上快数倍且生成决策树规模更小,
适合解决大数据集的分类问题。

  • 9
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值