第五章决策树——学习笔记-CSDN博客

本文链接：https://blog.csdn.net/zb520515/article/details/129255851

（一）决策树模型与学习

在这里插入图片描述

（二）特征选择

熵（entropy）： $\underset {j=1}{\overset n {\sum}}p_ilogp_i$ 对数底为2单位是比特(bit)，自然对数单位为纳特(nat)。

条件熵（conditional entropy）： $H(Y|X)=\underset {j=1}{\overset n {\sum}}p_iH(Y|X=x_i)$ 其中 $p_i=P(X=x_i)，i=1,2,...,n$ 。

信息增益（information gain）：得知特征 $X$ 的信息而使得类 $Y$ 的信息的不确定性减少的程度。 $g (D, A) = H (D) - H (D ∣ A)$ 经验熵 $H (D)$ 表示对数据集 $D$ 分类的不准确性，经验条件熵 $H (D ∣ A)$ 表示在特征 $A$ 给定的条件下对数据集 $D$ 分类的不准确性。因此，信息增益大意味着更好的分类能力。

一般的，熵 $H (Y)$ 与条件熵 $H (Y ∣ X)$ 的差称为互信息（mutual information）。在决策树中，信息增益与互信息二者等价。

算法（信息增益）
输入：训练数据集 $D$ 和特征 $A$ ;
输出：特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$
（1）计算数据集 $D$ 的经验熵： $H(D)=-\underset {k=1}{\overset K {\sum}}\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}$
（2）特征 $A$ 对训练数据集 $D$ 的经验条件熵： $H(D|A)=\underset {i=1}{\overset n {\sum}}\frac{|D_i|}{|D|}H(D_i)=-\underset {n=1}{\overset n {\sum}}\frac{|D_i|}{|D|}\underset {k=1}{\overset K {\sum}}\frac{|D_{ik}|}{|D_i|}log_2\frac{|D_{ik}|}{|D_i|}$
（3）计算信息增益： $g (D, A) = H (D) - H (D ∣ A)$
例：贷款申请样本数据集如下，根据信息增益准则选择最优特征。

ID	年龄	有工作	有自己的房子	信贷情况	类别
1	青年	否	否	一般	否
2	青年	否	否	好	否
3	青年	是	否	好	是
4	青年	是	是	一般	是
5	青年	否	否	一般	否
6	中年	否	否	一般	否
7	中年	否	否	好	否
8	中年	是	是	好	是
9	中年	否	是	非常好	是
10	中年	否	是	非常好	是
11	老年	否	是	非常好	是
12	老年	否	是	好	是
13	老年	是	否	好	是
14	老年	是	否	非常好	是
15	老年	否	否	一般	否

解：
Step1：计算经验熵，类别分为两类，有 $H(D)=-\frac{9}{15}log_2\frac{9}{15}-\frac{6}{15}log_2\frac{6}{15}=0.971$
Step2：计算每个特征对数据集的增益
（1）年龄 $青年：H(D_1)=-\frac{2}{5}log_2\frac{2}{5}-\frac{3}{5}log_2\frac{3}{5}$ $中年：H(D_2)=-\frac{3}{5}log_2\frac{3}{5}-\frac{2}{5}log_2\frac{2}{5}$ $老年：H(D_3)=-\frac{4}{5}log_2\frac{4}{5}-\frac{1}{5}log_2\frac{1}{5}$ $g(D,A_1)=H(D)-\frac{5}{15}H(D_1)-\frac{5}{15}H(D_2)-\frac{5}{15}H(D_3)=0 .971-0.888=0.083$
（2）工作 $有工作：H(D_1)=-\frac{5}{5}log_2\frac{5}{5}-\frac{0}{5}log_2\frac{0}{5}$ $没工作：H(D_2)=-\frac{4}{10}log_2\frac{4}{10}-\frac{6}{10}log_2\frac{6}{10}$ $g(D,A_2)=H(D)-\frac{5}{15}H(D_1)-\frac{10}{15}H(D_2)=0.324$
（3）房子 $g(D,A_3)=0.420$
（4）信贷 $g(D,A_4)=0.363$
对比四个特征，发现房子的信息增益最大。
信息增益比（information gain ratio）：信息增益存在偏向于选择取值较多的特征的问题，故有信息增益比 $g_R(D,A)=\frac{g(D,A)}{H_A(D)}$

（三）决策树的生成

1. ID3算法

在各个节点上应用信息增益准则选择特征，迭代至结束。

2. C4.5算法

在各个节点上应用信息增益比选择特征，迭代至结束。

（四）决策树的剪枝

为提升泛化能力裁剪掉一些子树和节点。示意图如下：在这里插入图片描述

设树 $T$ 的叶结点个数为 $∣ T ∣$ ， $t$ 是树 $T$ 的叶结点，该叶结点有 $N_t$ 个样本点，其中 $k$ 类的样本点有 $N_{tk}$ 个， $k=1,2,...,K，H_t(T)$ 为叶结点 $t$ 上的经验熵， $\alpha\geq0$ 为参数，则决策树学习的损失函数可定义为 $C_{\alpha}(T)=\overset {|T|} {\underset{t=1} \sum}N_tH_t(T)+\alpha |T|$ $=C(T)+\alpha|T|$ 其中经验熵为 $H_t(T)=-\underset {k} {\sum} \frac{N_{tk}}{N_t}log\frac{N_{tk}}{N_t}$ 那么， $C (T) ， ∣ T ∣$ 就分别表示训练误差与模型复杂度。

（五）CART算法

CART算法=决策树生成+决策树剪枝

1. CART生成

1.1. 回归树的生成

算法（最小二乘回归树生成算法）
输入：训练集数据 $D$
输出：回归树 $f (X)$
在输入空间中递归地将每个区域二分：
（1）选择最优切分变量 $j$ 与切分点 $s$ ，求解 $\underset{j,s} {min}[\underset{c_1}{min}\underset{x_i\in R_1(j,s)}{\sum}(y_i-c_1)^2+\underset{c_2}{min}\underset{x_i\in R_2(j,s)}{\sum}(y_i-c_2)^2]$
（2）用选定的对 $(j, s)$ 划分区域并决定相应的输出值 $R_1(j,s)=\{x|x^{(j)}\leq s\}，R_2(j,s)=\{x|x^{(j)}> s\}$ $\hat c_m=\frac 1 {N_m}\underset{x_i\in R_m(j,s)}{\sum}y_i，x\in R_m，m=1,2$
（3）反复调用（1）（2）至满足条件
（4）将空间划分为 $M$ 个区域 $R_1,R_2,...,R_M$ ，生成决策树 $f(x)=\overset {M}{\underset{m=1}{\sum}}\hat c_mI(x\in R_m)$

1.2. 分类树的生成

分类树采用基尼指数选择最优特征，同时决定该特征的最优二值切分点。
定义（基尼指数）
分类问题中，假设有 $K$ 类，样本属于第 $k$ 类的概率为 $p_k$ ，则概率分布的基尼指数定义为 $Gini(p)=\overset {K}{\underset{k=1}{\sum}}p_k(1-p_k)=1-\overset {K}{\underset{k=1}{\sum}}p_k^2$ 对于二分类问题，有 $G ini (p) = 2 p (1 - p)$ 对于给定样品集 $D$ 其基尼指数为 $Gini(D)=1-\overset {K}{\underset{k=1}{\sum}}(\frac{|C_k|}{|D|})^2$ 这里 $C_k$ 是 $D$ 中属于第 $k$ 类的样本子集， $K$ 是类的个数。
若 $D$ 根据特征 $A$ 取某一可能值 $a$ 被分割成 $D_1，D_2$ 两部分，则在特征 $A$ 的条件下，集合 $D$ 的基尼指数定义为 $Gini(D,A)=\frac{D_1}{D}Gini(D_1)+\frac{D_2}{D}Gini(D_2)$ 基尼指数 $G ini (D)$ 表示集合 $D$ 的不确定性； $G ini (D, A)$ 表示经 $A = a$ 分割后集合 $D$ 的不确定性。
例：如上样本表，应用CART算法生成决策树。
解：（1）年龄 $Gini(D|A_1=青年)=\frac{5}{15}(2\times \frac{2}{5}\times \frac{3}{5})+\frac{10}{15}(2\times \frac{7}{10}\times \frac{3}{10})=0.44$ $Gini(D|A_1=中年)=0.48$ $Gini(D|A_1=老年)=0.44$
（2）工作 $Gini(D|A_2=1)=0.32$
（3）房子 $Gini(D|A_3=1)=0.27$
（4）信贷 $Gini(D|A_4=1)=0.36$ $Gini(D|A_4=2)=0.47$ $Gini(D|A_4=3)=0.32$ 可知， $A_3$ 为最优特征，依此类推。