决策树的预剪枝与后剪枝

最新推荐文章于 2024-08-04 21:08:26 发布

置顶

zfan520

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量3.7w

点赞数 85

分类专栏：机器学习文章标签：决策树预剪枝后剪枝

本文链接：https://blog.csdn.net/zfan520/article/details/82454814

版权

本次讲解参考的仍是周志华的《机器学习》，采用的是书中的样例，按照我个人的理解对其进行了详细解释，希望大家能看得懂。

其中{1,2,3,6,7,10,14,15,16,17}为测试集，{4,5,8,9,11,12,13}为训练集。

预剪枝是要对划分前后泛化性能进行评估。对比决策树某节点生成前与生成后的泛化性能。

（1）在未划分前，根据训练集，类别标记为训练样例数最多的类别，由于训练集中的好瓜与坏瓜是相同多的类别，均为5，因此任选其中一类，书中选择了好瓜作为标记类别。

当所有节点集中在根节点，所有训练集属于标记类别的仅有{4,5,8}，因此分类正确的是3/7*100%=42.9%

（2）计算训练集的信息增益，得知脐部的信息增益最大，因此按照脐部进行划分。又因为在训练集中，凹陷特征好瓜的占比多，因此凹陷划分为好瓜，稍凹特征好过占比多，因此将其标记为好瓜，因此按照脐部划分的子树结果如下：

划分后，对比结果如下：

（3）在脐部划分的基础上，进一步计算凹陷、根蒂特征下，其他属性的信息增益，根据计算结果可知，

关注

专栏目录