决策树（ID3算法、C4.5算法、CART算法、剪枝、启发式算法、NP问题）

最新推荐文章于 2024-04-28 23:23:24 发布

ML丶King

最新推荐文章于 2024-04-28 23:23:24 发布

阅读量2.1k

点赞数 1

分类专栏：机器学习文章标签：决策树剪枝机器学习算法人工智能

本文链接：https://blog.csdn.net/weixin_44628765/article/details/105331498

版权

决策树

决策树可以作为分类算法，也可以作为回归算法，同时特别适合集成学习比如随机森林。

ID3没考虑连续特征，比如长度，密度都是连续值，无法在ID3运用。
ID3用信息增益作为标准容易偏向取值较多的特征。然而在相同条件下，取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值，各为1/2，另一个变量为3个值，各为1/3，其实他们都是完全不确定的变量，但是取3个值比取2个值的信息增益大。如何校正这个问题
ID3算法没考虑缺失值问题。
没考虑过拟合问题。

针对ID3算法4个主要的不足，一是不能处理连续特征，二是用信息增益作为标准容易偏向取值较多的特征，最后是缺失值处理的问题和过拟合问题。

决策树算法非常容易过拟合，因此对于生成的决策树要进行剪枝。C4.5的剪枝方法有优化的空间。思路主要是两种，一种是预剪枝，即在生成决策树的时候就决定是否剪枝。另一个是后剪枝，即先生成决策树，再通过交叉验证来剪枝。后面在下篇讲CART树的时候我们会专门讲决策树的减枝思路，主要采用的是后剪枝加上交叉验证选择最合适的决策树。
C4.5生成的是多叉树，在计算机中二叉树模型会比多叉树运算效率高。多叉树改二叉树，可以提高效率。
C4.5只能用于分类。
C4.5由于使用了熵模型，里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算。如果能够加以模型简化减少运算强度但又不牺牲太多准确性的话，因此用基尼系数代替熵模型。

分类与回归树(CART——Classification And Regression Tree)) 是一种非常有趣并且十分有效的非参数分类和回归方法。它通过构建二叉树达到预测目的。

CART分类树算法对连续值的处理，思想和C4.5相同，都是将连续的特征离散化。唯一区别在选择划分点时，C4.5是信息增益比，CART是基尼系数。

具体思路：m个样本的连续特征A有m个，从小到大排列a₁，a₂，…，a_m</

关注