《统计学习方法(第二版笔记)》第5章决策树

最新推荐文章于 2022-06-10 07:48:46 发布

袁乃青

最新推荐文章于 2022-06-10 07:48:46 发布

阅读量717

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/yuannaiqing/article/details/108588814

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

决策树（decision tree）是一种基本的分类与回归方法。在分类问题中，它可以认为是 if-then 规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。优点是模型具有可读性，分类速度快。
决策树学习通常包括3个步骤：特征选择、决策树的生成、决策树的修剪。

5.1 决策树模型与学习

5.1.1 决策树模型

定义 5.1 （决策树）分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点（node）和有向边（directed edge）组成。结点有两种类型：内部结点（internal node）和叶结点（leaf node）。内部结点表示一个特征或属性，叶结点表示一个类。下图圆形表示内部结点，方形是叶子结点。
在这里插入图片描述

5.1.2 决策树与 if-then 规则

可以将决策树看成一个 if-then 规则的集合。将决策树转换成 if-then 规则的过程是这样的：由决策树的根节点到叶结点的每一条路径构建一条规则；路径上内部结点的特征对应着规则的条件，而叶结点的类对应着规则的结论。决策树的路径或其对应的 if-then 规则集合具有一个重要的性质：互斥并且完备。这就是说，每一个实例都被一条路径或一条规则所覆盖，并且只被一条路径或一条规则所覆盖。这里所谓覆盖是指实例的特征与路径的特征一致或实例满足规则的条件。

5.1.3 决策树与条件概率分布

决策树还表示给定特征条件下类的条件概率分布。这一条件概率分布定义在特征空间的一个划分（partition）上。将特征空间划分为互不相交的单元（cell）或区域（region），并在每个单元定义一个类的概率分布就构成了一个条件概率分布。决策树的一条路径对应于划分中的一个单元。各叶结点（单元）上的条件概率往往偏向某一个类，即属于某一类的概率较大。决策树分类时将该结点的实例强行分到条件概率大的那一类去。
a 图中，大正方形表示特征空间，这个大正方形被若干个小矩形分割，每个小矩形表示一个单元。
在这里插入图片描述

5.1.4 决策树学习

在这里插入图片描述
决策树学习本质上是从训练数据集中归纳出一组分类规则。能对训练数据进行正确分类的决策树可能有多个，也可能没有。我们需要的是一个与训练数据矛盾较小的决策树，同时具有很好的泛化能力。决策树学习是由训练数据集估计条件概率模型。
决策树学习的损失函数通常是正则化的极大似然函数。从所有可能的决策树中选取最优决策树是 NP 完全问题，所以现实中决策树学习算法同行采用启发式方法，近似求解这一最优问题。这样得到的决策树是次最优（sub-optimal）的。
开始，构建根结点，将所有数据都放在根结点。选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类。如果这些子集一斤更能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去；如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点。如此进行下去，直到每个子集都被分到叶结点上，即都有了明确的分类。这就生成了一棵决策树。
以上方法生成的决策树容易发生过拟合显现。我们需要对已生成的树自下而上进行剪枝，将树变得简单，从而使它具有更好的泛化能力。具体地，就是去掉过于细分的叶结点，使其回退到父结点，甚至更高的结点，然后将父结点或更高的结点改为新的叶结点。
如果特征数量很多，也可以在决策树学习开始的时候，对特征进行选择，只留下对训练数据有足够分类能力的特征。
决策树学习算法包含特征选择、决策树的生成与决策树的剪枝过程。常用的算法有ID3、C4.5、CART。

5.2 特征选择

5.2.1 特征选择问题

特征选择在于选取对训练年数据具有分类能力的特征，以提高决策树学习的效率。经验上扔掉对决策树学习的精度影响不大的特征。通常特征选择的准则是信息增益或信息增益比。
首先通过一个例子来说明特征选择问题。
在这里插入图片描述
希望通过所给的训练数据学习一个贷款申请的决策树，用以对未来的贷款申请进行分类。根据申请人的特征利用决策树决定是否批准贷款申请。
特征选择是决定用哪个特征来划分特征空间。
下图是从上面数据中学习到的两个可能的决策树，分别由两个不同特征的根结点构成。两个决策树都可以继续延续下去，问题是该选择哪个特征好些？原则是，如果一个特征具有更好的分类能力，或者说按照这一特征将训练数据集分割成子集，使得各个子集在当前条件下有最好的分类，那么就应该选择这一特征。信息增益（information gain）就能很好地表示这一直观
在这里插入图片描述

5.2.2 信息增益

在信息论与概率论中，熵（entropy）是表示随机变量不确定性的度量。设 X 是一个取有限个值的离散随机变量，其概率分布为 $P(X=x_i)=p_i, i =1,2,...,n$ 则随机变量 X 的熵定义为 $H(X)=-\sum_{i=1}^np_i\log p_i$ 其中若 $p_i=0$ , 则定义 $0\log 0=0$ 。通常对数以 2 为底或以 e 为底（自然对数），这时熵的单位分别称作比特（bit）或纳特（nat）。熵只依赖于 X 的分布，与 X 的取值无关，所以也可以将 X 的熵记作 $H(p)=-\sum _{i=1}^np_i\log p_i$ 熵越大，随机变量的不确定性就越大。从定义可验证 $0\leq H(P)\leq \log n$
条件熵 $H (Y ∣ X)$ 表示在已知随机变量 X 的条件下，随机变量 Y 的不确定性。随机变量 X 给定的条件下随机变量 Y 的条件熵（conditional entropy）H(Y|X)，定义为 X 给定条件下 Y 的条件概率分布的熵对 X 的数学期望 $H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)$ 这里， $p_i=P(X=x_i), i = 1,2,...,n$ 。
当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵与条件熵分别称为经验熵（empirical entropy）和经验条件熵（empirical conditional entropy）。
信息增益（information gain）表示得知特征 X 的信息而使得类 Y 的信息的不确定性减少的成都。
信息增益 特征 A 对训练数据集 D 的信息增益 $g (D, A)$ ，定义为集合 D 的经验熵 H(D) 与特征 A 给定条件下 D 的经验熵 H(D|A) 之差，即 $g (D ∣ A) = H (D) - H (D ∣ A)$ 一般地，熵 H(Y)与条件熵H(Y|X)之差称为互信息（mutual information）。决策树中的信息增益等价于训练数据集中类与特征的互信息。
决策树学习应用信息增益准则选择特征。显然，对于数据集 D 而言，信息增益依赖与特征，不同的特征往往具有不同的信息增益。信息增益大的特征具有更强的分类能力。
根据信息增益准则的特征选择方法是：对训练数据集（或子集）D，计算其每个特征的信息增益，并比较它们的大小，选择信息增益最大的特征。
在这里插入图片描述

5.2.3 信息增益比

以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。使用信息增益比（information gain ratio）可以对这一问题进行校正。这是特征选择的另一准则。
信息增益比 特征 A 对训练数据集 D 的信息增益比 $g_R(D,A)$ 定义为其信息增益 $g (D, A)$ 与训练数据集 D 关于特征 A 的值的熵 $H_A(D)$ 之比，即 $g_R(D,A)=\frac{g(D,A)}{H_A(D)}$ 其中， $H_A(D)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\log_2\frac{|D_i|}{|D|},n$ 是特征 A 取值的个数。

5.3 决策树的生成

本章介绍决策树生成的算法。

5.3.1 ID3 算法

ID3 算法的核心是在决策树各个结点上应用信息增益准则选择特征，递归地构建决策树。具体方法是：从根结点（root node）开始，对结点计算所有可能的特征的信息增益，选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点；再对子结点递归地调用以上方法，构建决策树；直到所有特征的信息增益均很小或没有特征可以选择为止。最后得到一棵决策树。ID3 相当于用极大似然法进行概率模型的选择。
ID3 算法
输入：训练数据集 D，特征集 A 阈值 $\epsilon$ ；
输出：决策树 T。
（1）若 D 中所有实例属于同一类 C_k，则 T 为单结点树，并将类 C_k 作为该结点的类标记，返回 T；
（2）若 $A=\phi$ ，则 T 为单结点树，并将 D 中实例数最大的类 C_k 作为该结点的类标记，返回 T；
（3）否则，按算法 5.1 计算 A 中各特征对 D 的信息增益，选择信息增益最大的特征 A_g ；
（4）如果 A_g 的信息增益小于阈值 $\epsilon$ ，则置 T 为单结点树，并将 D 中实例数最大的类 C_k 作为该结点的类标记，返回 T；
（5）否则，对 A_g的每一可能值 a_i，依 $A_g=a_i$ 将 D 分割为若干非空子集 D_i ，将 D_i 中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树 T，返回 T；
（6）对第 i 个子结点，以 D_i 为训练集，以 $A-{A_g}$ 为特征集，递归地调用步(1)~步(5)，得到子树 T_i，返回 T_i 。
ID3 算法只有树的生成，所以该算法生成的树容易产生过拟合。

5.3.2 C4.5的生成算法

C4.5算法对 ID3 算法进行了改进， C4.5 在生成的过程中，用信息增益比来选择特征。
C4.5 的生成算法
输入：训练数据D，特征集 A 阈值 $\epsilon$ ；
输出：决策树 T
（1）如果 D 中所有实例属于同一类 C_k，则置 T 为单结点树，并将 C_k 作为该结点的类，返回 T；
（2）若 $A=\phi$ ，则 T 为单结点树，并将 D 中实例数最大的类 C_k 作为该结点的类标记，返回 T；
（3）否则，按信息增益比公式计算 A 中个特征对 D 的信息增益增益比，选择信息增益比最大的特征 A_g
（4）如果 A_g 的信息增益比小于阈值 $\epsilon$ ，则置 T 为单结点树，并将 D 中实例数最大的类 C_k 作为该结点的类，返回 T；
（5）否则，对 A_g的每一可能值 a_i，依 $A_g=a_i$ 将 D 分割为若干非空子集 D_i ，将 D_i 中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树 T，返回 T；
（6）对结点 i，以 D_i 为训练集，以 $A-{A_g}$ 为特征集，递归地调用步(1)~步(5)，得到子树 T_i，返回 T_i 。

5.4 决策树的剪枝

决策树生成算法递归地产生决策树，容易出现过拟合。过拟合的原因在于学习时过多地考虑如何提高对训练数据的正确分类，从而构建出过于复杂的决策树。解决这个问题的办法是考虑决策树的复杂度，对已生成的决策树进行简化。
在决策树学习中将已生成的树进行简化的过程称为剪枝（pruning） 具体地，剪枝从已生成的树上裁掉一些子树或叶结点，并将其根结点作为新的叶结点，从而简化分类树模型。
决策树的剪枝往往通过极小化决策树整体的损失函数（loss function）或代价函数（cost function）来实现。设树 T 的叶结点个数为 |T|，t 是树 T 的叶结点，该叶结点有 N_t 个样本点，其中 k 类的样本点有 N_tk个，k = 1,2,…,K，H_t(T) 为叶结点 t 上的经验熵， $\alpha \geqslant0$ 为参数，则决策树学习的损失函数可以定义为 $C_\alpha(T)=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha|T|$ 其中经验熵为 $H_t(T)=-\sum_k\frac{N_{tk}}{N_t}\log \frac{N_{tk}}{N_t}$
在损失函数中，右端的第1项记作 $C(T)=\sum_{t=1}^{\vert T\vert}N_tH_t(T)=-\sum_{t=1}^{\vert T\vert}\sum_{k=1}^KN_{tk}\log\frac{N_{tk}}{N_t}$ 这时有 $C_\alpha(T)=C(T)+\alpha\vert T\vert$ C(T) 表示模型对训练数据的预测误差，即模型与训练数据的拟合程度， |T| 表示模型复杂度，参数 $\alpha \geqslant0$ 控制两者之间的影响。较大的 $\alpha$ 促使选择较简单的模型（树），较小的 $\alpha$ 促使选择较复杂的模型（树）。 $\alpha=0$ 意味着只考虑模型与训练数据的拟合程度，不考虑模型的复杂程度。
剪枝，就是当 $\alpha$ 确定时，选择损失函数最小的模型，即损失函数最小的子树。当 $\alpha$ 值确定时，子树越大，往往与训练数据的子树拟合越好，但是模型的复杂度就越高；相反，子树越小，模型的复杂度就越低，但是往往与训练数据的拟合不好。损失函数正好表示了对两者的平衡。
可以看出，决策树生成只考虑了通过提高信息增益（或信息增益比）对训练数据进行更好地拟合。决策树剪枝通过优化损失函数还考虑了减小模型复杂度。
损失函数的极小化等价于正则化的极大似然估计。所以，利用损失函数最小原则进行剪枝就是用正则化的极大似然估计进行模型选择。
树的剪枝算法
输入：生成算法产生的整个树 T，参数 $\alpha$ ；
输出：修剪后的树 $T_\alpha$
（1）计算每个结点的经验熵。
（2）递归地从树的叶结点向上回缩。
在这里插入图片描述
设一组叶结点回缩到其父结点之前与之后的整体树分别为 T_B 与 T_A，其对应的损失函数值分别是 $C_\alpha(T_B)$ 与 $C_\alpha(T_A)$ ，如果 $C_\alpha(T_A) \leq C_\alpha(T_B)$ 则进行剪枝，即将父结点变为新的叶结点。
（3）返回（2），直至不能继续为止，得到损失函数最小的子树 $T_\alpha$
注意，上面式子只考虑两个树的损失函数的差，其计算可以在局部进行。所以，决策树的剪枝算法可以由一种动态规划的算法实现。

5.5 CART 算法

分类与回归树（classification and regression tree，CART）模型由 Breiman 等人在1984年提出，是应用广泛的决策树学习方法。CART 同样由特征选择，树的生成及剪枝组成，既可以用于分类也可以用于回归。
CART假设决策树是二叉树，内部结点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征，将输入空间即特征空间划分为有限个单元，并在这些单元上确定预测的概率分布，也就是在输入给定的条件下输出的条件概率分布。
CART 算法由以下两步组成：
（1）决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大；
（2）决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。

5.5.1 CART 生成

决策树的生成就是递归地构建二叉决策树的过程。对回归树用平方误差最小化准则，对分类树用基尼指数（Gini index）最小化准则，进行特征选择，生成二叉树。

1.回归树的生成

假设 X 与 Y 分别为输入和输出变量，并且 Y 是连续变量，给定训练数据集 $D=\{(x_1, y_1),(x_1,y_2),...,(x_N, Y_N\}$ 考虑如何生成回归树。
一棵回归树对应着输入空间（即特征空间）的一个划分以及在划分的单元上的输出值。假设已将输入空间划分为 M 个单元 R₁，R₂，…，R_M，并且在每个单元 R_m 上有一个固定的输出值 c_m，于是回归树模型可表示为 $f(x)=\sum_{m=1}^{M}c_mI(x \in R_m)$ 当输入空间的划分确定时，可以用平方误差 $\sum_{x_i\in R_m}(y_i-f(x_i))^2$ 来表示回归树对于训练数据的预测误差，用平方误差最小的准则求解每个单元上的最优输出值。易知，单元 $R_m$ 上的 $c_m$ 的最优值 $\hat c_m$ 是 $R_m$ 上的所有输入实例 $x_i$ 对应的输出 $y_i$ 的均值，即 $\hat c_m=ave(y_i|x_i \in R_m)$ 问题是怎样对输入空间进行划分。这里采用启发式的方法，选择第 j 个变量 $x^{(j)}$ 和它取的值 s，作为切分变量（splitting variable）和切分点（splitting point），并定于两个区域 $R_1(j,s)=\{x\vert x^{(j)}\leqslant s\}和R_2(j,s)=\{x\vert x^{(j)}>s\}$ 然后寻找最优切分变量 j 和最优切分点 s。具体地，求解 $\underset{j,s}{\min}\lbrack\;\underset{c_1}{\min}\sum_{x_i\in R_1(j,s)}{(y_i-c_1)}^2+\underset{c_2}{\min}\sum_{x_i\in R_1(j,s)}{(y_i-c_2)}^2\rbrack$
对固定输入变量 j 可以找到最优切分点 s 。 $\hat c_1 = ave(y_i|x_i\in R_1(j,s))和 \hat c_2=ave(y_i|x_i \in R_2(j,s))$ 遍历所有输入变量，找到最优的切分变量 j，构成一个对(j,s)。依此将输入空间划分为两个区域。接着，对每个区域重复上述划分过程，直到满足停止条件为止。这样就生成一棵回归树。这样的回归树通常称为最小二乘回归树（least squares regression tree），现将算法叙述如下。
在这里插入图片描述

2.分类树的生成

分类树用基尼指数选择最优特征，同时决定该特征的最优二值切分点。
在这里插入图片描述
二分类问题中，基尼指数 Gini§、熵之半 H§/2 和分类误差率的关系。横坐标表示概率 p，纵坐标表示损失。可以看出基尼指数和熵之半的曲线很接近，都可以近似地代表分类误差率。

CART 生成算法

算法停止计算的条件是结点中的样本个数小于预定阈值，或样本集的基尼指数小于预定阈值（样本基本属于同一类），或者没有更多特征。
在这里插入图片描述

5.5.2 CART 剪枝

CART 剪枝算法从“完全生长”的决策树的底端减去一些子树，使决策树变小（模型变简单），从而能够对位置数据有更准确的预测。
CART 剪枝算法由两步组成：首先从生成算法产生的决策树 T₀ 底端开始不断剪枝，直到 T₀ 的根结点，形成一个子树序列 ${T_o, T_1,..., T_n\}$ ；然后通过交叉验证法在独立的验证数据集上对子树序列进行测试，从中选择最优子树。
1.剪枝，形成一个子树序列
在剪枝过程中，计算子树的损失函数： $C_\alpha(T)=C(T)+\alpha|T|$
其中，T 为任意子树，C(T) 为对训练数据的预测误差（如基尼指数），|T| 为子树的叶结点个数， $\alpha \geq 0$ 为参数， $C_\alpha(T)$ 为参数是 $\alpha$ 时的子树 T 的整体损失。参数 $\alpha$ 权衡训练数据的拟合程度与模型的复杂度。 $\alpha$ 越大，最优子树越小、越简单。
对固定的 $\alpha$ ，一定存在使损失函数 $C_\alpha(T)$ 最小的子树，将其表示为 $T_\alpha$ 。这样的最优子树是唯一的。 $\alpha$ 增大，最优子树变小、模型越简单。
2.在剪枝得到的子树序列 $T_0, T_1,..., T_n$ 中通过交叉验证选取最优子树 $T_\alpha$
具体地，利用独立的验证数据集，测试子树序列 $T_0, T_1,...,T_n$ 中各棵子树的平方误差或基尼指数。平方误差或基尼指数最小的决策树被认为是最优的决策树。在子树序列中，每棵子树 $T_0, T_1,...,T_n$ 都对应于一个参数 $\alpha_1,\alpha_2,...,\alpha_n$ 。所以，当最优子树 $T_k$ 确定时，对应的 $\alpha_k$ 也确定了，即得到了最优决策树 $T_\alpha$
算法5.7（CART 剪枝算法）
输入：CART 算法生成的决策树 $T_0$
输出：最优决策树 $T_\alpha$
（1）设 $k=0, T=T_0$
（2）设 $\alpha=+\infty$
（3）自下而上地对各内部结点 t 计算 $C(T_T), |T_t|$ 以及 $g(t)=\frac{C(t)-C(T_t)}{|T_t|-1}\\ \\ \alpha=\min(\alpha,g(t))$
这里， $T_t$ 表示以 $t$ 为根结点的子树， $C(T_t)$ 是对训练数据的预测误差， $T_t|$ 是 $T_t$ 的叶结点个数。
（4）对 $g(t)=\alpha$ 的内部结点 $t$ 进行剪枝，并对叶结点 $t$ 以多数表决法决定其类，得到树 $T$
（5）设 $\alpha_k=\alpha, T_k=T$
（6）如果 $T_k$ 不是由根结点及两个叶结点构成的树，则回到步骤（2）；否则令 $T_k=Tn$
（7）采用交叉验证法在子树序列 $T_0, T_1, ..., T_n$ 中选取最优子树 $T_\alpha$

本章概要

1．分类决策树模型是表示基于特征对实例进行分类的树形结构。决策树可以转换成一个if-then规则的集合，也可以看作是定义在特征空间划分上的类的条件概率分布。

2．决策树学习旨在构建一个与训练数据拟合很好，并且复杂度小的决策树。因为从可能的决策树中直接选取最优决策树是NP完全问题（不能直接推算出答案，却能验证猜测的答案是否正确）。现实中采用启发式方法（无法求得最优解时，用一种相对较好的算法去逼近最优解，比如神经网络等）学习次优的决策树。

决策树学习算法包括3部分：特征选择、树的生成和树的剪枝。常用的算法有ID3、 C4.5和CART。

3．特征选择的目的在于选取对训练数据能够分类的特征。特征选择的关键是其准则。常用的准则如下：

（1）样本集合 $D$ 对特征 $A$ 的信息增益（ID3）

$g (D, A) = H (D) - H (D ∣ A)$ $H(D)=-\sum_{k=1}^{K} \frac{\left|C_{k}\right|}{|D|} \log _{2} \frac{\left|C_{k}\right|}{|D|}$ $A)=\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} H\left(D_{i}\right)$
其中， $H (D)$ 是数据集 $D$ 的熵， $H(D_i)$ 是数据集 $D_i$ 的熵， $H (D ∣ A)$ 是数据集 $D$ 对特征 $A$ 的条件熵。 $D_i$ 是 $D$ 中特征 $A$ 取第 $i$ 个值的样本子集， $C_k$ 是 $D$ 中属于第 $k$ 类的样本子集。 $n$ 是特征 $A$ 取值的个数， $K$ 是类的个数。

（2）样本集合 $D$ 对特征 $A$ 的信息增益比（C4.5）

$g_{R}(D, A)=\frac{g(D, A)}{H(D)}$
其中， $g (D, A)$ 是信息增益， $H (D)$ 是数据集 $D$ 的熵。

（3）样本集合 $D$ 的基尼指数（CART）

$\operatorname{Gini}(D)=1-\sum_{k=1}^{K}\left(\frac{\left|C_{k}\right|}{|D|}\right)^{2}$
特征 $A$ 条件下集合 $D$ 的基尼指数：

$\operatorname{Gini}(D, A)=\frac{\left|D_{1}\right|}{|D|} \operatorname{Gini}\left(D_{1}\right)+\frac{\left|D_{2}\right|}{|D|} \operatorname{Gini}\left(D_{2}\right)$