ID3决策树、信息熵、信息增益

最新推荐文章于 2024-11-07 22:36:47 发布

Codefmeister

最新推荐文章于 2024-11-07 22:36:47 发布

阅读量2.9k

点赞数 4

分类专栏：机器学习笔记自用文章标签：信息熵决策树算法机器学习

本文链接：https://blog.csdn.net/weixin_43977640/article/details/114336485

版权

笔记同时被 3 个专栏收录

48 篇文章

订阅专栏

自用

7 篇文章

订阅专栏

机器学习

1 篇文章

订阅专栏

本文所用的例子引自《机器学习》，周志华。

ID3决策树

ID3中的ID，是Iterative Dichotomiser的简称。 ID3是一种经典的基于信息增益的决策树学习算法。

信息熵

信息熵是度量样本集合纯度最常用的一种指标。假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $p_k(k=1,2, \ldots,|\mathcal{Y}|)$ ，则 $D$ 的信息熵被定义为：
$\operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|} p_{k} \log _{2} p_{k}$

信息增益

假定离散属性 $a$ 有 $V$ 个可能的取值 $\left\{a^{1}, a^{2}, \ldots, a^{V}\right\}$ , 若使用 $a$ 来对样本集 $D$ 进行划分，则会产生 $V$ 个分支结点，其中第 $v$ 个分支结点包含了 $D$ 中所有在属性 $a$ 上取值为 $a^v$ 的样本，记做 $D^v$ .我们可以根据上式计算出 $D^v$ 的信息熵，考虑到不同分支结点所包含的样本数不同，给分支结点赋予权重 $\left|D^{v}\right| /|D|$ ，即样本数越多的分支结点影响越大，于是可计算出用属性 $a$ 对样本集 $D$ 进行划分所获得的“信息增益”(information gain)
$\operatorname{Gain}(D, a)=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)$

ID3决策树

ID3决策树使用每次的信息增益来进行决策树的划分属性选择。

举例

以该西瓜集为例：

西瓜集

西瓜显然分为分为好瓜和坏瓜，所以 $|\mathcal{Y}|=2$ 。在决策树学习开始阶段，根节点包含所有 $D$ 中的样例，其中正例占 $p_{1}=\frac{8}{17}$ ，反例占 $p_{2}=\frac{9}{17}$ 。于是，根据公式可以计算得出根节点的信息熵为：
$\operatorname{Ent}(D)=-\sum_{k=1}^{2} p_{k} \log _{2} p_{k}=-\left(\frac{8}{17} \log _{2} \frac{8}{17}+\frac{9}{17} \log _{2} \frac{9}{17}\right)=0.998$

随后，我们计算当前属性集合{色泽，根蒂，敲声，纹理，脐部，触感}中每个属性的信息增益。我们以属性“色泽”为例，它有3个可能的取值：{青绿，乌黑，浅白}。若使用该属性对 $D$ 进行划分，则可以得到3个子集，分别记为 $D^1$ (色泽=青绿)， $D^2$ （色泽=乌黑）， $D^3$ (色泽=浅白)。

子集 $D^1$ 中包含6个样例，编号为1，4，6，10，13，17。其中正例占 $p_{1}=\frac{3}{6}$ ，反例占 $p_{2}=\frac{3}{6}$ 。 $D^2$ 正反例占 $p_{1}=\frac{4}{6}, p_{2}=\frac{2}{6}$ . $D^3$ 正反例占 $p_{1}=\frac{1}{5}, p_{2}=\frac{4}{5}$ 。可以计算出用“色泽”划分后三个分支结点的信息熵：

$\operatorname{Ent}\left(D^{1}\right)=-\left(\frac{3}{6} \log _{2} \frac{3}{6}+\frac{3}{6} \log _{2} \frac{3}{6}\right)=1.000$

$\operatorname{Ent}\left(D^{2}\right)=-\left(\frac{4}{6} \log _{2} \frac{4}{6}+\frac{2}{6} \log _{2} \frac{2}{6}\right)=0.918 \\$

$\operatorname{Ent}\left(D^{3}\right)=-\left(\frac{1}{5} \log _{2} \frac{1}{5}+\frac{4}{5} \log _{2} \frac{4}{5}\right)=0.722$

于是可以计算得到属性“色泽”的信息增益：
$\begin{aligned} \operatorname{Gain}(D, \text { 色泽 }) &=\operatorname{Ent}(D)-\sum_{v=1}^{3} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right) \\ &=0.998-\left(\frac{6}{17} \times 1.000+\frac{6}{17} \times 0.918+\frac{5}{17} \times 0.722\right) \\ &=0.109 . \end{aligned}$

类似的，可以计算出其他属性的信息增益：
$\begin{array}{l} \operatorname{Gain}(D, \text { 根蒂 })=0.143 ; \quad \operatorname{Gain}(D, \text { 敲声 })=0.141 \\ \operatorname{Gain}(D, \text { 纹理 })=0.381 ; \quad \operatorname{Gain}(D, \text { 脐部 })=0.289 \\ \operatorname{Gain}(D, \text { 触感 })=0.006 . \end{array}$