【机器学习笔记】决策树: ID3/C4.5/CART算法异同

最新推荐文章于 2024-06-28 20:05:44 发布

不，是你的杰宝

最新推荐文章于 2024-06-28 20:05:44 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_45551676/article/details/106116483

版权

本文详细介绍了决策树的基础知识，包括信息熵、条件熵、信息增益、基尼指数等概念。接着讲解了ID3算法的流程及其优缺点，指出其倾向于选择取值较多的特征。C4.5算法通过信息增益率解决了这一问题，同时进行了剪枝处理。CART算法则采用Gini系数，支持连续型变量，并以二分法进行分裂。最后讨论了剪枝策略，包括前剪枝和后剪枝中的代价复杂性剪枝法。

摘要由CSDN通过智能技术生成

一、信息论基础

信息熵
一个集群中，一类数据的出现概率假设为p，那么它所对应的信息量为-log p。考虑当p=1时，表示该集群中只有一个分类，那么这类集群包含的信息量为0。反之让p接近0时，表示该数据为小概率事件，那么这类时间发生所包含的信息量将会巨大。
对于整个集群的信息量，是由各类数据的权重累加而成，公式即为：
$H(X)=\sum_{i}^{} -P(x_{i})log P(x_{i})$
这也被称为集群的信息熵

条件熵
如果集群X有个映射Y，那么还能够做一个条件概率的信息熵。
我们假设，映射Y，或者说标签Y，有n个分类，分别为 ${Y_{1},Y_{2}...Y_{n}}$ 。对于第i个分类下，又对应了k个X集群，即：
$X={X_{1},X_{2}...X_{k}}$
那么就有 $Y=Y_{i}$ 是的条件熵 $\mid Y_{i})=\sum_{i}^{} -P(x_{i})log P(x_{i})$
再将所有的 $Y_{i}$ 按比例累加起来，就得到了整个函数集的条件熵了。
$\mid Y)=\sum_{y \in Y}^{} P(y)H(X \mid Y=y)$