统计学习方法【5】-决策树

最新推荐文章于 2022-07-04 23:46:21 发布

David Wolfowitz

最新推荐文章于 2022-07-04 23:46:21 发布

阅读量174

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_43763859/article/details/106419492

版权

机器学习专栏收录该内容

26 篇文章 1 订阅

订阅专栏

决策是一种基本的用于分类与回归的方法。在分类问题中，表示基于特征对实例进行分类的过程，可以认为是if-then规则的集合，也可认为是定义在特征空间与类空间上的条件概率分布，主要优点有：模型具有可读性，分类速度快。学习时利用训练数据，根据损失函数最小化的原则建立决策树模型。决策树学习通常包括3个步骤：特征选择，决策树的生成，决策树的修建

ID3 和 C4.5是多叉树，但CART是二叉树

一、决策树模型基本知识

（1）决策树模型

决策树：分类决策树模型是一种描述对实例进行分类的树形结构，决策树由结点（node）和有向边（directed edge）组成，结点有两类：内部结点（internal node）和叶结点（left node）。内部节点表示一个属性或特征，叶结点表示一个类。

用决策树分类，从根节点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点；这时，每一个子节点对应着该特征的一个取值，如此递归地对实例进行测试并分配，直至达到叶结点，最后将实例分到叶结点的类中。

（2）决策树学习

决策树学习，假设给定训练数据集
$D = \{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)\}$
其中， $x_i = (x_i^{(1)}, x_i^{(2)}, ..., x_i^{(n)})^T$ 为输入实例（特征向量），n为特征个数， $y_I \in \{ 1, 2, ..., K\}$ 为类标记， $i = 1, 2, . ., N ， N$ 为样本容量，学习的目标是根据给定的训练数据集构建一个决策树模型，使它能够对实例进行正确的分类。

决策树学习本质上是从训练集数据中归纳出一组分类规则，与训练数据集不相矛盾的决策树（即能对训练数据进行正确分类的决策树）可能有多个，也可能一个都没有，我们需要的是一个能与训练数据矛盾较小的决策树，同时具有很好的泛化能力，从另一个角度看，决策树学习是由训练数据集估计条件概率模型，基于特征空间划分的类的条件概率模型有无穷个，我们选择的条件概率模型不仅对训练数据有很好的拟合，而且对未知数据有很好的预测。
决策树学习用损失函数表示这一目标，决策树学习的损失函数通常是正则化的极大似然函数，决策树学习的策略是以损失函数为目标函数的最小化。
损失函数确定后，学习问题就变为在损失函数意义下选择最优的决策树的问题。因为从所有可能的决策树中选取最优决策树是一个NP完全问题，所以现实中决策树学习算法通常采用启发式方法，近似求解这一最优化问题。

决策树学习流程大概如下：

开始构建根节点，将所有训练数据都放在根节点，选择一个最优特征，按照这一特征将训练数据集分割成子集，使得各个子集有一个在当前条件下最好的分类，如果这些子集已经能够被基本正确分类，那么构建叶结点，并将这些子集分到所对应的叶结点中去；
如果还有子集不能被基本正确分类，那么就对这些子集选择新的最优特征，继续对其进行分割，构建相应的结点，
如此递归地进行下去，直至所有训练数据子集被基本正确分类，或者没有合适的特征为止，
最后，每个子集都被分到叶结点上，即都有了明确的类，这就生成了一个决策树。
以上方法可能对未知数据没有很好的能力能力(过拟合)，就需要对决策树进行剪枝，从而有更好的泛化能力。

二、决策树学习–No.1 特征选择

1、特征选择–为什么要进行特征选择

特征选择在于选取对训练数据具有分类能力的特征，这样可以提高决策树学习的效率，如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征没有分类能力的，经验上扔掉这些的特征对决策树学习的精度影响不大。我们用信息增益或者信息增益比来表示这一效果。

2、信息增益

熵
首先说说熵：
（entropy）表示随机变量不确定性的度量，设 $X$ 是一个取有限个值得离散随机变量，其概率分布为
$P(X = x_i) = p_i, i = 1, 2, ..., n$
则随机变量 $X$ 的熵定义为：
$-\sum_{i = 1}^np_ilog^{p_i}\tag{1}$
定义 $0log^{0} = 0$ ，由于式（1）中 $H (X)$ 的大小于X的取值无关，所有可记为：
$-\sum_{i = 1}^np_ilog^{p_i}$
熵越大，随机变量的不确定性也就越大，从定义可得
$\leq H(p) \leq log^n$
当随机变量只取两个值时，则 $X$ 得熵为：
$H(p)= -plog_2p - (1 - p)log_2(1-p)$
条件熵
设随机变量 $(X, Y)$ ，其联合概率分布为
$P(X = x_i， Y = y_j) = p_{ij}, i = 1, 2, ..., n; j = 1, 2, ..., m$
条件熵 $H (Y ∣ X)$ 表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性，随机变量 $X$ 给定的条件下随机变量 $Y$ 的条件熵 $H (Y ∣ X)$ 定义为 $X$ 给定的条件下 $Y$ 的条件概率分布的熵对 $X$ 的数学期望
$=\sum_{i = 1}^np_iH(Y| X = x_i)$
这里， $p_i = P(X = x_i), i = 1, 2, ..., n$
当熵和条件熵的概率有数据估计得到的，所对应的熵和条件熵分别称为经验熵和经验条件熵。
信息增益
特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$ ，定义为集合 $D$ 的经验熵 $H (D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H (D ∣ A)$ 之差，即
$g (D, A) = H (D) - H (D ∣ A)$
一般的，熵 $H (Y)$ 与条件熵 $H (Y ∣ X)$ 之差称为互信息。信息增益大的特征具有更强的分类能力。【理解：首先，对于每个特征 $X$ ，去计算 $g (D, A)$ 时，都要利用共同的 $H (D)$ ，所以我们再去观测 $H (D ∣ A)$ ，这个表示在条件 $A$ 下，随机变量 $Y$ 的不确定性，如果不确定性越大，则则这个特征对分类没有起到很好的作用，不确定小，则对分类作用越明显，然后用同样的 $H (D)$ 去减去这一个不确定的量，就得到信息增益，则信息增益的变化刚好与 $H (D ∣ A)$ 变化相反，即信息增益越大，分类作用越明显，所有我们要选择信息增益大的对应的特征】

信息增益算法：

设训练数据集为 $D$ , $∣ D ∣$ 表示其样本容量，即样本个数，设有 $K$ 个类 $C_k$ , $k = 1, 2, . . ., K$ , $C_k|$ 为属于类 $C_k$ 的样本个数， $\sum_{k = 1}^K|C_k| = |D|$ .设特征 $A$ 有 $n$ 个不同的取值 ${a_1, a_2, ..., a_n\}$ 根据特征 $A$ 的取值将 $∣ D ∣$ 划分为n个子集 $D_1, D_2, ..., D_n$ , $D_i|$ 为 $D_i$ 的样本个数， $\sum_{i = 1}^n|D_i| = |D|$ ，记子集 $D_i$ 中属于 $C_k$ 的样本的集合为 $D_{ik}$ .

输入：训练数据集 $D$ 和特征 $A$
输出：特征 $A$ 对训练数据集 $D$ 的信息增益 $g (A D A)$

（1）计算数据集 $D$ 的经验熵 $H (D)$
$-\sum_{k = 1}^K\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}$

（2）计算特征 $A$ 对数据集 $D$ 的经验条件熵 $H (D ∣ A)$
$\sum_{i = 1}^n\frac{|D_i|}{|D|}H(D_i) = -\sum_{i = 1}^n\frac{|D_i|}{|D|}\sum_{k = 1}^K\frac{|D_{ik}|}{|D_i|}log_2\frac{|D_{ik}|}{|D_i|}$

（3）计算信息增益
$g (D, A) = H (D) - H (D ∣ A)$

3、信息增益比

为什么引入信息增益比？
信息增益的大小时相对于训练数据集而言的，并没有绝对的意义，在分类问题困难时，也就是说在训练数据集的经验熵大的情况下，信息增益值会偏大，反之，信息增益值会偏小，使用信息增益比可以对这一问题进行校正
信息增益比
特征 $A$ 对训练数据集 $D$ 的信息增益比 $g_R(D,A)$ 定义为其信息增益 $g (D, A)$ 与训练数据集 $D$ 的经验熵 $H (D)$ 之比
$g_R(D, A) = \frac{g(D, A)}{H(D)}$

三、决策树生成

1、ID3算法（使用信息增益选择特征）

输入：训练数据集 $D$ , 特征集 $A$ ，阈值 $\varepsilon$ ；
输出：决策树 $T$ ;

（1）若 $D$ 中所有实例属于同一类 $C_k$ ，则 $T$ 为单结点数，并将类 $C_k$ 作为该结点的类标记，返回 $T$ ，
（2）若 $\varnothing$ ，则 $T$ 为单结点数，并将 $D$ 中实例树最大的类 $C_k$ 作为该结点的类标记，返回 $T$ ，
（3）否则，计算 $A$ 中各个特征对 $D$ 的信息增益，选择信息增益最大的特征 $A_g$ ;
（4）如果 $A_g$ 的信息增益小于阈值 $\varepsilon$ ，则置 $T$ 为单结点数，并将 $D$ 中实例数最大的类 $C_k$ 作为该结点的类标记，返回 $T$ ;
（5）否则，对 $A_g$ 的每一个可能值 $a_i$ ，依 $A_g = a_i$ 将 $D$ 分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例最大的类作为标记，构建子节点，由结点及其子结点构建数 $T$ ，返回 $T$ ；
（6）对第 $i$ 个子结点，以 $D_i$ 为训练集，以 $A-\{A_g\}$ 为特征集，递归地调用步（1）~步（5），得到子树，返回 $T$

1、C4.5算法与ID3的唯一差别是（使用信息增益比选择特征）

输入：训练数据集 $D$ , 特征集 $A$ ，阈值 $\varepsilon$ ；
输出：决策树 $T$ ;

（1）若 $D$ 中所有实例属于同一类 $C_k$ ，则 $T$ 为单结点数，并将类 $C_k$ 作为该结点的类标记，返回 $T$ ，
（2）若 $\varnothing$ ，则 $T$ 为单结点数，并将 $D$ 中实例树最大的类 $C_k$ 作为该结点的类标记，返回 $T$ ，
（3）否则，计算 $A$ 中各个特征对 $D$ 的信息增益比，选择信息增益比最大的特征 $A_g$ ;
（4）如果 $A_g$ 的信息增益小于阈值 $\varepsilon$ ，则置 $T$ 为单结点数，并将 $D$ 中实例数最大的类 $C_k$ 作为该结点的类标记，返回 $T$ ;
（5）否则，对 $A_g$ 的每一个可能值 $a_i$ ，依 $A_g = a_i$ 将 $D$ 分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例最大的类作为标记，构建子节点，由结点及其子结点构建数 $T$ ，返回 $T$ ；
（6）对第 $i$ 个子结点，以 $D_i$ 为训练集，以 $A-\{A_g\}$ 为特征集，递归地调用步（1）~步（5），得到子树，返回 $T$

四、决策树的剪枝

决策树生成算法递归地产生决策树，直到不能继续下去为止，这样产生的树往往对训练数据的分类很准确，但对未知的测试数据的分类却没有那么准确，即出现过拟合现象，过拟合的原因在于学习时过多地考虑如何提高对训练数据的正确分类，从而构建过于复杂的决策树。
决策树的剪枝往往通过极小化决策树整体的损失函数或代价函数来实现，设树 $T$ 的叶结点个数为 $∣ T ∣$ ， $t$ 是树 $T$ 的叶结点，该叶结点有 $N_t$ 个样本点，其中 $k$ 类的样本点有 $N_{tk}$ 个， $k = 1, 2, . . ., K$ ， $H_t(T)$ 为叶结点 $t$ 上的经验熵， $\geq 0$ 为参数，则决策树学习的损失函数可以定义为
$C_a(T) = \sum_{t = 1}^{|T|}N_tH_t(T) + a|T| \tag{2}$
其中经验熵为
$H_t(T) = -\sum_k\frac{N_{tk}}{N_t}log\frac{N_{tk}}{Nt}$
在损失函数中，式（2）的右端第1项记作：
$\sum_{t= 1}^{|T|}N_tH_t(T) = \sum_{t = 1}^{|T|}\sum_{k = 1}^{K}N_{tk}log\frac{N_{tk}}{N_t}$
这时有
$C_a(T) = C(T) + a |T|\tag{3}$
式（3）中， $C (T)$ 表示模型对训练数据的预测误差，即模型与训练数据的拟合程度， $∣ T ∣$ 表示模型的复杂度，参数 $\geq 0$ 控制两者之间的影响。较大的 $a$ 初始选择较简单的模型，较小的 $a$ 初始选择较复杂的模型。

树的剪枝算法——动态规划
输入：生成算法产生的整个树 $T$ ，参数 $a$ ;
输出：修建后的子树 $T_a$
（1）计算每个结点的经验熵
（2）递归地从树的叶结点向上回缩
设一组叶结点回缩到其父结点之前与之后的整体树分别为 $T_B$ , $T_A$ ，其对应的损失函数分别为 $C_a(T_B)$ , $C_a(T_A)$ ,如果
$C_a(T_A) \leq C_a(T_B)$

则进行剪枝，即将父结点变成新的叶结点。
（3）返回（2），直至不能继续未知，得到损失函数最小的子树 $T_a$ .

五、CART算法（classification and regression tree）

CATR是在给定输入随机变量 $X$ 条件下输出随机变量 $Y$ 的条件概率分布的学习方法。

CART算法由以下两步组成：
（1）决策树的生成：基于训练数据集生成决策树，生成的决策树要尽量大；
（2）决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。

（1）CART生成

$\left\{ \begin{aligned} 回归树&&用平方误差最小化\\ 分类树&&基尼指数\\ \end{aligned} \right.$
回归树

对输入空间的划分，采用启发式，选择第 $j$ 个变量 $x^{(j)}$ 和它的取值 $s$ ，作为切分变量和切分点，并定义两个区域：
$R_1(j, s) = \{x| x^{(j) } \leq s\} 和 R_2(j, s) = \{x| x^{(j) } > s\}$
然后寻找最有切分点变量 $j$ 和最优切分点 $s$ ，具体地求解：
$min_{j, s}[min_{c_1}\sum_{x_i \in R_1(j,s)}(y_i - c_1)^2 + min_{c_2} \sum_{x_i \in \R_2(j, s)}(y_i - c_2)^2]$
对固定输入变量 $j$ 可以找到最优切分点。
$\hat{c_1} = avg(y_i| x_i \in R_1(j, s)) 和 \hat{c_2} = avg(y_i| x_i \in R_2(j, s))$

最小二乘回归树生成算法
输入：训练数据集 $D$ ；
输出：回归树 $f (X)$ ；
在训练数据集所在的输入空间中，递归地将每个区域划分为两个子区域并决定每个子区域上的输出值，构建二叉树；
（1）选择最优切分变量 $j$ 和切分点 $s$ ，求解
$min_{j, s}[min_{c_1}\sum_{x_i \in R_1(j,s)}(y_i - c_1)^2 + min_{c_2} \sum_{x_i \in \R_2(j, s)}(y_i - c_2)^2]\tag{4}$
遍历遍历 $j$ ,对固定的切分变量 $j$ 扫描切分点 $s$ ，选择使式（4）达到最小值的对(j, s)
（2）用选定的对 $(j, s)$ 划分区域并决定相对应的输出值：
$R_1(j, s) = \{x| x^{(j) } \leq s\} 和 R_2(j, s) = \{x| x^{(j) } > s\}$
$\hat{c_m} = \frac{1}{N_m} \sum_{x_i \in R_m(j,s )}y_i, x \in R_m, m =1, 2$

（3）继续对两个子区域调用步骤(1), (2)直至满足停止条件。
（4）将输入空间划分为 $M$ 个区域 $R_1, R_2, ..., R_M$ ，生成决策树：
$\sum_{m = 1}^M\hat{c_m}I(x \in R_m)$

分类树
基尼指数：分类问题中，假设有 $K$ 个类，样本点属于第 $k$ 个类的概率为 $p_k$ ，则概率分布的基尼指数定义为：
$\sum_{k = 1}^Kp_k(1 - p_k) = 1 - \sum_{k = 1}^Kp_k^2$
对于二分类问题，若样本点属于第1个类的概率是 $p$ ，则概率分布的基尼指数为
$G i n i (p) = 2 p (1 - p)$

如果样本集合 $D$ 根据特征 $A$ 是否取一个可能值 $a$ 被分割为 $D_1$ 和 $D_2$ 两个部分，即
$D_1 = \{(x, y) \in D | A(x) = a\}, D_2 = D - D_1$
则在特征 $A$ 的条件下，集合 $D$ 的基尼指数定义为
$\frac{|D_1|}{|D|}Gini(D_1) + \frac{|D_2|}{|D|}Gini(D_2) \tag{5}$
基尼指数 $G i n i (D)$ 表示集合 $D$ 的不确定性，基尼系数 $G i n i (D, A)$ 表示经 $A = a$ 分割后集合 $D$ 的不确定性。基尼指数值越大，样本集合的不确定性也就越大，这一点与熵相似。

CART生成分类算法
输入：训练数据集 $D$ ，停止计算的条件；
输出： CART决策树
根据训练数据集，从根节点开始，递归地对每一个结点进行以下操作，构建二叉决策树：
（1）设结点的训练数据集为 $D$ ，计算现有特征的基尼指数，此时，对每一个特征 $A$ ，对其可能的每个取值 $a$ ，根据样本点对 $A = a$ 的测试为"是"或"否"，将 $D$ 分割为 $D_1$ 和 $D_2$ 两部分，利用公式(5)计算基尼指数。
（2）在所有可能的特征 $A$ 以及它们所有的切分点 $a$ 中，选择基尼指数最小的特征以及对象切分点作为最优·特征与最优切分点，依最优特征与最优切分点，从现结点生成两个子结点，将训练集以特征分配到两个子结点中去。
（3）对两个子结点递归地调用（1），（2）直至满足停止条件
（4）生成CART决策树。

参考资料：
【1】统计学习方法——李航

David Wolfowitz

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法【5】-决策树

决策是一种基本的用于分类与回归的方法。在分类问题中，表示基于特征对实例进行分类的过程，可以认为是if-then规则的集合，也可认为是定义在特征空间与类空间上的条件概率分布，主要优点有：模型具有可读性，分类速度快。学习时利用训练数据，根据损失函数最小化的原则建立决策树模型。决策树学习通常包括3个步骤：特征选择，决策树的生成，决策树的修建一、决策树模型基本知识（1）决策树模型决策树：分类决策树模型是一种描述对实例进行分类的树形结构，决策树由结点（node）和有向边（directed edge）组成，结点有
复制链接

扫一扫