决策树算法详解-CSDN博客

本文链接：https://blog.csdn.net/weixin_43735353/article/details/102741042

西瓜书——决策树

1. 信息熵与条件熵
- 1.1. 信息熵
- 1.2. 条件熵
2. ID3决策树
3. C4.5决策树
4. CART决策树

决策树

Lei_ZM
2019-09-21

1. 信息熵与条件熵

1.1. 信息熵

度量样本集合纯度最常用的一种指标，其含义如下：

$\operatorname{Ent}(D)=-\sum_{k=1}^{|y|} p_{k} \log _{2} p_{k}$

其中， $D=\{(x_{1},y_{1}),(x_{2},y_{2}),\cdots,(x_{m},y_{m})\}$ 表示样本集合， $|\mathcal{Y}|$ 表示样本类别总数， $p_{k}$ 表示第 $k$ 类样本所占的比例，且 $0\leq p_{k}\leq 1$ ， $\sum_{k=1}^{|\mathcal{Y}|} p_{k}=1$ 。 $\operatorname{Ent}(D)$ 值越小，纯度越高。

证明： $0\leq \operatorname{Ent}(D)\leq 、\log_{2}\mathcal{|Y|}$

求 $\operatorname{Ent}(D)$ 最大值：

若令 $|\mathcal{Y}|=n$ ， $p_{k}=x_{k}$ ，那么信息熵 $\operatorname{Ent}(D)$ 就可以看作一个 $n$ 元实值函数，也即：

$\operatorname{Ent}(D)=f\left(x_{1}, \ldots, x_{n}\right)=-\sum_{k=1}^{n} x_{k} \log _{2} x_{k}$

其中， $0\leq x_{k}\leq 1$ ， $\sum_{k=1}^{n} x_{k}=1$ ，下面考虑求该多元函数的最值。

如果不考虑约束 $0\leq x_{k}\leq 1$ ，仅考虑 $\sum_{k=1}^{n} x_{k}=1$ 的话，对 $f\left(x_{1},x_{2},\cdots,x_{n}\right)$ 求最大值等价于如下最小化问题：

$\begin{array}{ll} {\min } & {\sum_{k=1}^{n} x_{k} \log _{2} x_{k}} \\ {\text { s.t. }} & {\sum_{k=1}^{n} x_{k}=1}\end{array}$

显然，在 $0\leq x_{k}\leq 1$ 时，此问题为凸优化问题，而对于凸优化问题来说，满足KKT条件的点即为最优解。由于此最小化问题仅含等式约束，那么能令其拉格朗日函数的一阶偏导数等于0的点即为满足KKT条件的点。

根据拉格朗日乘子法可知，该优化问题的拉格朗日函数为：

$L\left(x_{1}, \ldots, x_{n}, \lambda\right)=\sum_{k=1}^{n} x_{k} \log _{2} x_{k}+\lambda\left(\sum_{k=1}^{n} x_{k}-1\right)$

对拉格朗日函数分别关于 $x_{1}, \ldots, x_{n}, \lambda$ 求一阶偏导数，并令偏导数等于0可得：

$\begin{aligned} \frac{\partial L\left(x_{1}, \ldots, x_{n}, \lambda\right)}{\partial x_{1}} &=\frac{\partial}{\partial x_{1}}\left[\sum_{k=1}^{n} x_{k} \log _{2} x_{k}+\lambda\left(\sum_{k=1}^{n} x_{k}-1\right)\right]=0 \\ &=\log_{2} x_{1} + x_{1} \cdot \frac{1}{x_{1} \ln 2} + \lambda = 0 \\ &=\log_{2} x_{1} + \cdot \frac{1}{\ln 2} + \lambda = 0 \\ &\Rightarrow \lambda=-\log_{2} x_{1} - \frac{1}{\ln 2} \end{aligned}$

同理可得：

$\lambda=-\log_{2} x_{1} - \frac{1}{\ln 2}=-\log_{2} x_{2} - \frac{1}{\ln 2}=\cdots==-\log_{2} x_{n} - \frac{1}{\ln 2}$

又因为：

$\begin{aligned} \frac{\partial L\left(x_{1}, \ldots, x_{n}, \lambda\right)}{\partial x_{1}} &=\frac{\partial}{\partial \lambda}\left[\sum_{k=1}^{n} x_{k} \log _{2} x_{k}+\lambda\left(\sum_{k=1}^{n} x_{k}-1\right)\right]=0 \\ &\Rightarrow \sum_{k=1}^{n} x_{k}=1 \end{aligned}$

所以可以解得：

$x_{1}=x_{2}=\cdots=x_{n}=\frac{1}{n}$

又因为 $x_{k}$ 还需满足约束 $0\leq x_{k}\leq 1$ ，显然 $0\leq \frac{1}{n}\leq 1$ ，所以 $x_{1}=x_{2}=\cdots=x_{n}=\frac{1}{n}$ 是满足所有约束的最优解，也即为当期最小化问题的最小值点，同时也是 $f\left(x_{1},x_{2},\cdots,x_{n}\right)$ 的最大值点。将 $x_{1}=x_{2}=\cdots=x_{n}=\frac{1}{n}$ 代入 $f\left(x_{1},x_{2},\cdots,x_{n}\right)$ 中可得：

$f\left(\frac{1}{n}, \ldots, \frac{1}{n}\right) =-\sum_{k=1}^{n} \frac{1}{n} \log _{2} \frac{1}{n} =-n \cdot \frac{1}{n} \log _{2} \frac{1}{n}=\log _{2} n$

所以 $f\left(x_{1},x_{2},\cdots,x_{n}\right)$ 在满足约束 $0\leq x_{k}\leq 1$ ， $\sum_{k=1}^{n} x_{k}=1$ 时的最大值为 $log_{2} n$ 。

求 $\operatorname{Ent}(D)$ 最小值：

如果不考虑约束 $0\leq x_{k}\leq 1$ ，仅考虑 $\sum_{k=1}^{n} x_{k}=1$ 的话， $f\left(x_{1},x_{2},\cdots,x_{n}\right)$ 可以看做是 $n$ 个互不相关的一元函数的加和，也即：

$f\left(x_{1},x_{2}, \ldots, x_{n}\right)=\sum_{k=1}^{n} g\left(x_{k}\right)$

其中， $g\left(x_{k}\right)=-x_{k} \log_2 x_{k}$ ， $0\leq x_{k}\leq 1$ 。那么当 $g\left(x_{1}\right),g\left(x_{2}\right),\cdots,g\left(x_{n}\right)$ 分别取到其最小值时， $f\left(x_{1},x_{2},\cdots,x_{n}\right)$ 也就取到了最小值。由于 $g\left(x_{1}\right),g\left(x_{2}\right),\cdots,g\left(x_{n}\right)$ 的定义域和函数表达式均相同，所以只需求出 $g\left(x_{1}\right)$ 的最小值也就求出了 $g\left(x_{2}\right),\cdots,g\left(x_{n}\right)$ 的最小值。下面考虑求 $g\left(x_{1}\right)$ 的最小值。

首先对 $g\left(x_{1}\right)$ 关于 $x_{1}$ 求一阶和二阶导数：

$g^{\prime}\left(x_{1}\right)=\frac{d\left(-x_{1} \log _{2} x_{1}\right)}{d x_{1}}=-\log _{2} x_{1}-x_{1} \cdot \frac{1}{x_{1} \ln 2}=-\log _{2} x_{1}-\frac{1}{\ln 2} \\ g^{\prime \prime}\left(x_{1}\right)=\frac{d\left(g^{\prime}\left(x_{1}\right)\right)}{d x_{1}}=\frac{d\left(-\log _{2} x_{1}-\frac{1}{\ln 2}\right)}{d x_{1}}=-\frac{1}{x_{1} \ln 2}$

显然，当 $0\leq x_{k}\leq 1$ 时， $g^{\prime \prime}\left(x_{1}\right)=-\frac{1}{x_{1} \ln 2}$ 恒小于0，所以 $g\left(x_{1}\right)$ 是在其定义域范围内开口向下的凹函数，那么其最小值必然在边界取，于是分别取 $x_{1}=0$ 和 $x_{1}=1$ ，代入 $g\left(x_{1}\right)$ 可得：

$g(0)=-0\log_{2} 0=0 \\ g(1)=-1\log_{2} 1=0$

所以， $g\left(x_{1}\right)$ 的最小值为0，同理可得 $g\left(x_{2}\right),\cdots,g\left(x_{n}\right)$ 最小值也为0，那么 $f\left(x_{1},x_{2}, \ldots, x_{n}\right)$ 的最小值此时也为0.但是，此时是仅考虑 $0\leq x_{k}\leq 1$ 时取到的最小值，若考虑约束 $\sum_{k=1}^{n} x_{k}=1$ 的话，那么 $f\left(x_{1},,x_{2}, \ldots, x_{n}\right)$ 的最小值一定大于等于0。如果令某个 $x_{k}=1$ ，那么根据约束 $\sum_{k=1}^{n} x_{k}=1$ 可知 $x_{1}=x_{2}=\cdots=x_{k-1}=x_{k+1}=\cdots=x_{n}=0$ ，将其代入 $f\left(x_{1},x_{2}, \ldots, x_{n}\right)$ 可得：

$f(0,0,\cdots,0,1,0,\cdots,0)=-0log_{2} 0-1log_{2} 1-\cdots-0log_{2} 0-1log_{2} 1-0log_{2} 0-\cdots-0log_{2} 0=0$

所以 $x_{1}=x_{2}=\cdots=x_{k-1}=x_{k+1}=\cdots=x_{n}=0$ 一定是 $f\left(x_{1},x_{2}, \ldots, x_{n}\right)$ 在满足约束 $0\leq x_{k}\leq 1$ ， $\sum_{k=1}^{n} x_{k}=1$ 的条件下的最小值点，其最小值为0。

1.2. 条件熵

在已知样本属性 $a$ 的取值情况下，度量样本集合纯度的一种指标。

$a)=\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)$

其中， $a$ 表示样本的某个属性，假定属性 $a$ 有 $V$ 个可能的取值 $\{a_{1},a_{2},\cdots,a_{V}\}$ ，样本集合 $D$ 中在属性 $a$ 上的取值为 $a^{v}$ 的样本即为 $D^{v}$ ， $\operatorname{Ent}\left(D^{v}\right)$ 表示样本集合 $D^{v}$ 的信息熵。 $H (D ∣ a)$ 值越小，纯度越高

2. ID3决策树

以信息增益为准则来选择划分属性的决策树

信息增益：

选择信息增益最大的属性作为划分属性，因为信息增益越大，则意味着使用该属性来进行划分所获得的“纯度”提升越大。

举个例子比喻
信息增益： $\operatorname{Gain}(D, a)$ ：减了多少肥
信息熵： $\operatorname{Ent}(D)=-\sum_{k=1}^{|y|} p_{k} \log _{2} p_{k}$ ：减肥前的体重
条件熵： $a)=\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)$ ：在做了某项减肥运动后 $a$ 的情况下减肥后的体重
信息增益越大，则说明做该项运动“所减的肥”越大

以信息增益为划分准则的ID3决策树对可取值数目较多的属性有所偏好

$\begin{aligned} \operatorname{Gain}(D, a) &=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right) \\ &=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|}\left(-\sum_{k=1}^{|y|} p_{k} \log _{2} p_{k}\right) \\ &=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|}\left(-\sum_{k=1}^{|\mathcal{V}|} \frac{\left|D_{k}^{v}\right|}{\left|D^{v}\right|} \log _{2} \frac{\left|D_{k}^{v}\right|}{\left|D^{v}\right|}\right) \end{aligned}$

其中， $D_{k}^{v}$ 样本集合 $D$ 中在属性 $a$ 上取值为 $a^{v}$ 且类别为 $k$ 的样本。

3. C4.5决策树

以信息增益率为准则来选择划分属性的决策树。

信息增益率：

$\begin{aligned} \text { Gain-ratio }(D, a) &=\frac{\operatorname{Gain}(D, a)}{\operatorname{IV}(a)} \\ &=\frac{\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)}{- \sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \log _{2} \frac{\left|D^{v}\right|}{|D|}} \\ &=\frac{-\sum_{k=1}^{|y|} p_{k_{D}} \log _{2} p_{k_{D}}-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|}\left(-\sum_{k=1}^{|y|} p_{k_{D^{v}}} \log _{2} p_{k_{D^{v}}}\right)}{-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \log _{2} \frac{\left|D^{v}\right|}{|D|}} \\ &=\frac{-\sum_{k=1}^{|y|} \frac{\left|D_{k}\right|}{\left|D\right|} \log _{2} \frac{\left|D_{k}^{v}\right|}{\left|D\right|}-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|}\left(-\sum_{k=1}^{|y|} \frac{\left|D_{k}^{v}\right|}{\left|D^{v}\right|} \log _{2} \frac{\left|D_{k}^{v}\right|}{\left|D^{v}\right|}\right)}{-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \log _{2} \frac{\left|D^{v}\right|}{|D|}} \\ \end{aligned}$

4. CART决策树

以基尼指数为准则来选择划分属性的决策树。

基尼值：

$\operatorname{Gini}(D) =\sum_{k=1}^{|\mathcal{Y}|} \sum_{k^{\prime} \neq k} p_{k} p_{k^{\prime}} =\sum_{k=1}^{|\mathcal{Y}|} p_{k} \sum_{k^{\prime} \neq k} p_{k^{\prime}} =\sum_{k=1}^{|\mathcal{Y}|} p_{k}\left(1-p_{k}\right) =1-\sum_{k=1}^{|\mathcal{Y}|} p_{k}^{2}$

基尼指数：

$\operatorname{Gini} \operatorname{index}(D, a) =\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Gini}\left(D^{v}\right)$

基尼值和基尼指数越小，样本集合纯度越高。

CART决策树分类算法：

根据基尼指数公式 $\operatorname{Gini} \operatorname{index}(D, a)=\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Gini}\left(D^{v}\right)$ 找出基尼指数最小的属性 $a_{*}$ 。
计算属性 $a_{*}$ 的所有可能取值的基尼值 $\operatorname{Gini}(D^{v})$ ， $v=1,2,\cdots,V$ ，选择基尼值最小的取值 $a_{*}$ 作为划分点，将集合 $D$ 划分为 $D_{1}$ 和 $D_{2}$ 两个集合（节点），其中 $D_{1}$ 的样本集合为 $a_{*}=a_{*}^{v}$ 的样本， $D_{2}$ 集合为 $a_{*}\neq a_{*}^{v}$ 的样本。
对集合 $D_{1}$ 和 $D_{2}$ 重复步骤1和步骤2，直到满足停止条件。

CART决策树回归算法：

根据以下公式找出最优化分特征 $a_{*}$ 和最优划分点 $a_{*}^{v}$ ：

$a_{*}, a_{*}^{v} =\underset{a, a^{v}}{\arg \min }\left[\min _{c_{1}} \sum_{\boldsymbol{x}_{i} \in D_{1}\left(a, a^{v}\right)}\left(y_{i}-c_{1}\right)^{2}+\min _{c_{2}} \sum_{\boldsymbol{x}_{i} \in D_{2}\left(a, a^{v}\right)}\left(y_{i}-c_{2}\right)^{2}\right]$

其中， $D_{1}\left(a, a^{v}\right)$ 表示在属性 $a$ 上取值小于等于 $a^{v}$ 的样本集合， $D_{2}\left(a, a^{v}\right)$ 表示在属性 $a$ 上取值大于 $a^{v}$ 的样本集合， $c_{1}$ 表示 $D_{1}$ 的样本输出均值， $c_{2}$ 表示 $D_{2}$ 的样本输出均值。
根据划分点 $a_{*}^{v}$ 将集合 $D$ 划分为 $D_{1}$ 和 $D_{2}$ 两个集合（节点）。
对集合 $D_{1}$ 和 $D_{2}$ 重复步骤1和步骤2，直到满足停止条件。