决策树ID3、C4.5和CART算法总结，及案例计算

最新推荐文章于 2024-08-04 21:08:26 发布

小鸡杂毛

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量6.2k

点赞数 13

分类专栏： Machine learning 文章标签：决策树算法 ID3.0 C4.5 CART

本文链接：https://blog.csdn.net/weixin_44400573/article/details/94122206

版权

1 篇文章 0 订阅

订阅专栏

一、决策树

决策树（Desicision Tree）是一种基本的分类与回归方法。决策树呈现树形结构，它可以认为是if-then规则的集合，可以认为是定义在特征空间与类空间上的条件概率分布。
学习时，利用训练数据，根据损失函数最小化的原则建立决策树模型
预测时，对新的数据利用决策树模型进行分类。
决策树学习通常包括3个步骤：
· 特征选择
· 决策树的生成
· 决策树的修剪
决策树的算法主要包括三大算法：
· Quin 1986年提出的ID3.0算法
· Quin 1993年提出的C4.5算法
· Breiman等人 1984年提出的CART算法

下面将分别介绍这三大算法。

· ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。
在这里插入图片描述

具体方法是：
· 从根结点（root node)开始，对结点计算所有可能的特征的信息增益，选择信息增益 $最大$ 的特征作为结点的特征，由该特征的不同取值建立子结点；
· 再对子结点递归地调用以上方法，构建决策树；
· 直到所有特征的信息增益均很小或没有特征可以选择为止，最后得到一个决策树。
· ID3相当于用 $极大似然法$ 进行概率选择模型。

在这里插入图片描述

以上ID3.0算法生成树的过程，涉及到核心准则就是信息增益，那么什么是信息增益呢？

定义：特征A对训练数据集 $D$ 的信息增益 $g (D, A)$ ，定义为集合 $D$ 的经验熵 $H (D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H (D ∣ A)$ 之差，即
$g (D, A) = H (D) - H (D, A)$
一般的，熵 $H (Y)$ 与条件熵 $H (Y ∣ X)$ 之差称为互信息(mutual information)
决策树学习中的信息增益等价于训练数据集中类与特征的互信息。
那么什么是熵与条件熵呢

· 在信息论与概率统计中，熵（entropy)是表示随机变量不确定性的度量。设 $X$ 是一个取有限个值得离散随机变量，其概率分布为
$P(X=X_i)=p_i, i = 1,2,...,n$
· 则随机变量X的熵的定义为
$-\sum^{n}_{i=1}p_ilogp_i$

设有随机变量 $(X, Y)$ ，其联合概率分布为 $P(X=x_i,Y=y_j)=p_{ij } , i = 1,2,...,n; j = 1,2,...,m$
条件熵 $H (Y ∣ X)$ 表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性。
随机变量 $X$ 给定的条件下随机变量 $Y$ 的条件熵(conditional entropy) $H (Y ∣ X)$ ，定义为 $X$ 给定条件下 $Y$ 的条件概率分布的熵对 $X$ 的数学期望 $H(Y|X)=\sum^{n}_{i=1}p_iH(Y|X=x_i)$
这里 $p_i = P(X=x_i), i=1,2,...,n$
当熵和条件熵的概率由数据估计（特别是极大似然估计）得到时，所对应的熵与条件熵分别称为经验熵（empirical entropy）和经验条件熵（empirical conditional entropy）。
信息增益 information gain表示得知特征 $X$ 的信息而使得类Y的信息的不确定性减少的程度。

在这里插入图片描述

在这里插入图片描述