经典决策树算法

意林飞笑

于 2023-12-09 20:25:15 发布

阅读量420

点赞数 9

分类专栏：决策智能文章标签：算法决策树机器学习

本文链接：https://blog.csdn.net/xinsuiqingfeng/article/details/134900063

版权

决策智能专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、CART算法
1.原理:分类和回归树，可用于分类和回归预测建模问题。
2.通过创建一颗二叉树，允许多样化输入数据类型，如混合连续数值变量或标称分类，枚举变量等。
3.使用代价复杂度剪枝方法将不可靠分支从决策树移除来提高准确率。
4.训练决策树包括迭代地将数据分成两个分支，CART算法使用基尼不纯度量化评估分割好坏。
5.算法流程：
输入训练数据和停止计算条件，递归分类切割生成完整二叉CART分类决策树，
为防止过拟合通过剪枝处理，有预剪枝和后剪枝两种方式。通过历史样本数据测算新数据分类，从根结点开始自上而下找到概率最大叶节点样本类别。

二、CART回归决策树
1.CART算法同时支持分类和回归问题处理，分类问题时使用基尼指数或基尼增益作为选择特征及分割点依据，对回归问题时CART使用均方误差或平均绝对误差作为特征选择和分割点依据。
2.CART决策树的输出为连续值，而分类树则是离散值。
3.每个节点都当作一个回归值，但只有最底层节点回归值可能才是最理想回归值。使用CART进行回归时目标是最小化均方误差。

三、ID3算法
1.ID3算法以Hunt算法为基础用于从数据集生成决策树，只能处理特征属性均为离散数据类型的数据集且不支持剪枝。
2.ID3算法生成为多元树，如S集合以属性A作为分割点，A属性值决定子集个数，主要作为分类决策树，不保证最优解，可能收敛于局部最优解。
3.为避免过拟合应选择较小决策树
4.熵为衡量数据集不确定性大小，熵越高数据越混杂，信息增益为分割前后熵差指标，训练决策树时通过最大化信息增益选择最爱分割。

四、C4.5算法
1.C4.5基于ID3扩展和改善，同样是分类决策树。
2.支持连续特征属性处理，通过挑选排序连续属性阀值
3.特征属性根据信息增益率，避免出现偏向大量取值的特征属性划分，信息增益率为信息增益与特征熵的比值，特征值取值越大特征熵倾向越大。

4.通过叶子结点替换删除无用分支来进行剪枝

五、C5.0算法
1.基于ID3和C4.5改进，也只能用于解决分类问题，采用信息增益率进行特征选择，对比C4.5算法速度上快数倍且生成决策树规模更小，
适合解决大数据集的分类问题。

意林飞笑

关注

9
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
经典决策树算法

1.CART算法同时支持分类和回归问题处理，分类问题时使用基尼指数或基尼增益作为选择特征及分割点依据，对回归问题时CART使用均方误差或平均绝对误差作为特征选择和分割点依据。2.ID3算法生成为多元树，如S集合以属性A作为分割点，A属性值决定子集个数，主要作为分类决策树，不保证最优解，可能收敛于局部最优解。4.熵为衡量数据集不确定性大小，熵越高数据越混杂，信息增益为分割前后熵差指标，训练决策树时通过最大化信息增益选择最爱分割。输入训练数据和停止计算条件，递归分类切割生成完整二叉CART分类决策树，
复制链接

扫一扫