02-22 决策树C4.5算法

最新推荐文章于 2023-10-09 14:52:44 发布

小猿取经-Egon林海峰

最新推荐文章于 2023-10-09 14:52:44 发布

阅读量510

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_46032351/article/details/104543804

版权

机器学习专栏收录该内容

90 篇文章 8 订阅

订阅专栏

文章目录

决策树C4.5算法
决策树C4.5算法学习目标
决策树C4.5算法详解
决策树C4.5算法流程
决策树C4.5算法的优缺点
- 优点
- 缺点
小结

决策树C4.5算法

在这里插入图片描述

为了解决决策树ID3算法的不足，ID3算法的作者昆兰基于它的不足改进了决策树ID3算法。但是可能会有人有疑问，既然上一个决策树算法叫做ID3算法，为什么改进版本不叫做ID4或者ID5呢？因为当时决策树过于火爆，有人二次创新把ID4、ID5都用掉了，由此作者另辟蹊径把ID3算法的改进版本称为C4算法，后来C4算法又一次升级便有了现在的C4.5算法。

决策树C4.5算法学习目标

使用C4.5算法对连续特征值离散化
信息增益比
使用C4.5算法对特征值加权
决策树C4.5算法步骤
决策树C4.5算法优缺点

决策树C4.5算法详解

上一次说到决策树ID3算法有4个缺点，而这次作者也是基于这4个缺点改进了算法，也就是现在的C4.5算法。

假设现有一个训练集 $D$ ，特征集 $A$ ，训练集中有 $m$ 个样本，每个样本有 $n$ 个特征，我们通过该训练集聊一聊作者对C4.5算法做了哪些改进。

连续特征值离散化

ID3算法的第一个缺点：没有考虑到连续值的情况。

假设现有一个特征 $F$ 的特征值为连续值，从大到小排序为 $f_1,f_2,\ldots,f_m$ ，C4.5算法对相邻样本间的特征值 $f_i,f_{i+1}$ 取平均数，一共可以得到 $m - 1$ 个划分点，其中第 $j$ 个划分点可以表示为
$S_j = {\frac {f_i + f_{i+1}} {2}}$
对于这 $m - 1$ 个划分点，分别计算以该点作为二元分类点的信息增益比，选择信息增益比最大的点作为该连续特征的二元离散分类点，把改点记作 $f_t$ ，则特征值小于 $f_t$ 的点记作 $c_1$ ；特征值大于 $f_t$ 的点记作 $c_2$ ，这样就实现了连续特征值的离散化。

信息增益比

ID3算法的第二个缺点：以信息增益作为划分训练数据集的特征，存在于偏向于选择取值较多的特征的问题。

信息增益作为标准容易偏向于取值较多的特征，因此可以使用信息增益比作为划分节点的标准。信息增益比的概念已经在《熵和信息增益》一文中介绍过，这里只给出公式
$g_R(D,A) = {\frac{g(D,A)}{H_A(D)}}$
由于特征越多的特征对应的特征熵 $H_A(D)$ 越大，则信息增益比 $g_R(D,A)$ 则会变小，因此可以校正信息增益容易偏向于取值较多的特征的问题。

剪枝

ID3算法的第三个缺点：没有考虑过拟合问题。

决策树一般采用剪枝的方法解决过拟合问题，剪枝的具体思路将在CART树一文中细讲。

特征值加权

ID3算法的第四个缺点：没有考虑特征中含有缺失值的情况。

假设某个特征 $F$ 有2个特征值 $f_1,f_2$ ，先设定缺失 $F$ 特征的样本 $D_i$ 的关于特征 $F$ 的特征值权重都为1，即 $f_1$ 和 $f_2$ 。假设 $2$ 个特征值对应的无缺失值的样本个数为 $3$ 和 $5$ ，现在把特征值 $f_1,f_2$ 重新划入样本 $D_i$ 中，在样本 $D_i$ 中 $f_1$ 的权重调节为 ${\frac{3}{8}}$ ， $f_2$ 的权重调节为 ${\frac{5}{8}}$ ，即样本 $D_i$ 的特征 $F$ 的特征值为 ${\frac{3}{8}}*f_1和{\frac{5}{8}}*f_2$ 。

计算样本 $D_i$ 的特征 $F$ 的信息增益比的时候，及计算 ${\frac{3}{8}}*f_1$ 和 ${\frac{5}{8}}*f_2$ 的信息增益比。

决策树C4.5算法流程

输入

假设现有一个训练集 $D$ ，特征集 $A$ ，阈值 $\epsilon$ 。

输出

C4.5算法决策树。

流程

初始化信息增益的阈值 $\epsilon$
如果 $D$ 中的所有样本都属于同一类 $C_k$ ，则返回单节点树 $T$ ，标记类别为 $C_k$
如果 $A$ 为空集，则返回单节点树 $T$ ，标记类别为 $D$ 中样本数最大的类 $C_k$
计算 $A$ 中各个特征对输出 $D$ 的信息增益比，选择信息增益比最大的 $A_g$
如果 $A_g$ 小于阈值 $\epsilon$ ，则返回单节点数 $T$ ，标记类别为 $D$ 中样本数最大的类 $C_k$
如果 $A_g$ 大于阈值 $\epsilon$ ，则按照特征 $A_g$ 的不同取值 $A_{g_i}$ 把 $D$ 分割成若干个子集 $D_i$ ，每个子集生成一个子节点，子节点对应特征值为 $A_{g_i}$ ，递归调用 $2 - 6$ 步，得到子树 $T_i$ 并返回