详解决策树ID3算法划分数据集

最新推荐文章于 2024-07-25 16:46:55 发布

ybdesire

最新推荐文章于 2024-07-25 16:46:55 发布

阅读量1.4w

点赞数 5

分类专栏： Machine Learning Python 文章标签：信息增益决策树 ID3 机器学习

本文链接：https://blog.csdn.net/ybdesire/article/details/52234758

版权

Machine Learning 同时被 2 个专栏收录

110 篇文章 17 订阅

订阅专栏

Python

78 篇文章 1 订阅

订阅专栏

相信能看到这篇文章的人，都大致知道什么是决策树(DT)。很多人也知道怎么用DT，但对DT也不一定有直观的感觉，更难以深究其细节。所以本文以Iris数据集为例，一步一步讲解DT的实现过程，并画出一颗DT，让我们能从根本上理解DT及其内部结构。
理解了DT，就更容易理解它的扩展算法Random Forest, GBDT, XGBoost。

Iris数据集

安德森鸢尾花卉数据集，下面给出数据集中的一小部分，这个数据集一共有3种类型，150个样本。

编号	花萼长度	花萼宽度	花瓣长度	花瓣宽度	属种
1	5.1	3.5	1.4	0.2	0
2	5.0	3.3	1.4	0.2	0
3	7.0	3.2	4.7	1.4	1
4	6.4	3.2	4.5	1.5	1
5	6.3	3.3	6.0	2.5	2
6	5.8	2.7	5.1	1.9	2

为什么选择Iris呢，应为它数据量小啊，便于把问题说清楚。还有就是在python里很容易调用这个数据集，下面几行代码就可以获得Iris数据集了。

from sklearn.datasets import load_iris

iris = load_iris()
print(iris.data)
print(iris.target)

划分数据集

构建一颗决策树的核心，在于节点上的判断问题（决策），以及树的形状划分。周志华的书里对于如何选择最优划分属性，有很精辟的描述：

一般而言，随着划分过程不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即节点“纯度”(purity)越来越高。

所以数据集的划分，是根据样本集合“纯度”来决定的。我们必须先知道怎么来衡量样本集合“纯度”。这也是所谓决策树的学习算法：
* ID3学习算法：以信息增益为准则来划分属性
* C4.5学习算法：是ID3的改进
* 用信息增益率来选择属性（ID3用信息增益）
* 在树构造过程中进行剪枝
* 能处理非离散数据和不完整数据

信息增益

信息熵

度量样本集合纯度中，我们最常用的指标是信息熵(information entropy)。

E n t (D) = - \sum k = 1 N (p k l o g 2 p k)

$Ent(D)=-\sum_{k=1}^{N}(p_{k}log_{2}p_{k})$

信息熵用于衡量样本集合D中，N类样本的纯度。信息熵值越小，说明纯度越高（想象集合中只有一类样本，则Ent(D)=0）。

注意，信息熵的计算，只与样本类别有光，与样本特征无关(在机器学习中，根据Y即可计算)

对于上表给出的6个数据，一共分3类(每类2个样本)，则它的信息熵计算过程如下：

E n t (D) = - \sum k = 1 3 (p k l o g 2 p k) = - (1 3 l o g 2 1 3 + 1 3 l o g 2 1 3 + 1 3 l o g 2 1 3) = - l o g 2 1 3 = 1.585

$Ent(D)=-\sum_{k=1}^{3}(p_{k}log_{2}p_{k})=-(\frac{1}{3}log_{2}\frac{1}{3}+\frac{1}{3}log_{2}\frac{1}{3}+\frac{1}{3}log_{2}\frac{1}{3})=-log_{2}\frac{1}{3}=1.585$

对于完整的Iris数据，可用如下代码计算其信息熵：

from sklearn.datasets import load_iris
import math 

iris = load_iris()

p0_count = 0
p1_count = 0
p2_count = 0
count = sum(iris.target)
for t in iris.target:
    if(t==0):
        p0_count += 1
    elif(t==1):
        p1_count += 1
    elif(t==2):
        p2_count += 1

p0 = p0_count/count  
p1 = p1_count/count  
p2 = p2_count/count  

ent = -(p0*math.log(p0)/math.log(2) + p1*math.log(p1)/math.log(2) + p2*math.log(p2)/math.log(2))
print(ent)# result = 1.58496250072

信息增益

信息增益，是根据样本的类别进行计算。假定属性a有V个可能的取值，则信息增益计算公式如下：

G a i n (D, a) = E n t (D) - \sum v = 1 V (| D v | | D | E n t (D v))

$Gain(D,a)=Ent(D)-\sum_{v=1}^{V}(\frac{\left | D^{v} \right |}{\left | D \right |}Ent(D^{v}))$

其中 $\left | D \right |$ 表示样本的个数， $\left | D^{v} \right |$ 表示v类样本的个数。

假定我们的数据集就是上表给定的6个样本(选择这6个样本方便详细说明计算过程)。则：

(1) 对于花萼长度属性，一共有6种(V=6)可能得取值。若使用该属性对D进行划分，则可得到6个子集： $D^{1}$ （花萼长度=5.1）， $D^{2}$ （花萼长度=5.0）， $D^{3}$ （花萼长度=7.0）， $D^{4}$ （花萼长度=6.4）， $D^{5}$ （花萼长度=6.3）， $D^{6}$ （花萼长度=5.8）。每个子集只有1个样本, $\left | D^{v} \right |=1$

D1 数据集中，数据在3个属种中的概率(花萼长度为5.1的，属于类别0,1,2的概率)为：p0=1, p1=0, p2=0
- $Ent(D^{1})=-\sum_{k=1}^{3}(p_{k}log_{2}p_{k})=-(1log_{2}1+0+0)=0$
D2 数据集中，数据在3个属种中的概率为：p0=1, p1=0, p2=0
- $Ent(D^{2})=-\sum_{k=1}^{3}(p_{k}log_{2}p_{k})=-(1log_{2}1+0+0)=0$
D3 数据集中，数据在3个属种中的概率为：p0=0, p1=1, p2=0
- $Ent(D^{3})=-\sum_{k=1}^{3}(p_{k}log_{2}p_{k})=-(0+1log_{2}1+0)=0$
D4 数据集中，数据在3个属种中的概率为：p0=0, p1=1, p2=0
- $Ent(D^{4})=-\sum_{k=1}^{3}(p_{k}log_{2}p_{k})=-(0+1log_{2}1+0)=0$
D5 数据集中，数据在3个属种中的概率为：p0=0, p1=0, p2=1
- $Ent(D^{5})=-\sum_{k=1}^{3}(p_{k}log_{2}p_{k})=-(0+0+1log_{2}1)==0$
D6 数据集中，数据在3个属种中的概率为：p0=0, p1=0, p2=1
- $Ent(D^{6})=-\sum_{k=1}^{3}(p_{k}log_{2}p_{k})=-(0+0+1log_{2}1)==0$

所以， $Gain(D, `花萼长度`) = Ent(D)-\sum_{v=1}^{V}(\frac{\left | D^{v} \right |}{\left | D \right |}Ent(D^{v}))=1.585-\sum_{v=1}^{V}(\frac{\left | D^{v} \right |}{\left | D \right |}Ent(D^{v}))=1.585-(\frac{1}{6}\times 0+\frac{1}{6}\times 0+\frac{1}{6}\times 0+\frac{1}{6}\times 0+\frac{1}{6}\times 0+\frac{1}{6}\times 0)=1.585$

(2) 对于花萼宽度属性，一共有4种(V=4)可能得取值。若使用该属性对D进行划分，则可得到4个子集： $D^{1}$ （花萼宽度=3.2）， $D^{2}$ （花萼宽度=3.3）， $D^{3}$ （花萼宽度=3.5）， $D^{4}$ （花萼宽度=2.7）。 $\left | D^{1} \right |=2$ ， $\left | D^{2} \right |=2$ ， $\left | D^{3} \right |=1$ ， $\left | D^{4} \right |=1$ 。

D1 数据集中，数据在3个属种中的概率(花萼宽度为3.2的，属于类别0,1,2的概率)为：p0=0, p1=2/2, p2=0
- $Ent(D^{1})=-\sum_{k=1}^{3}(p_{k}log_{2}p_{k})=-\sum_{k=1}^{3}(p_{k}log_{2}p_{k})=-(0+1log_{2}1+0)=0$
D2 数据集中，数据在3个属种中的概率(花萼宽度为3.3的，属于类别0,1,2的概率)为：p0=1/2, p1=0, p2=1/2
- $Ent(D^{1})=-\sum_{k=1}^{3}(p_{k}log_{2}p_{k})=-(\frac{1}{2}log_{2}(\frac{1}{2})+0+\frac{1}{2}log_{2}(\frac{1}{2}))= 1$
D3 数据集中，数据在3个属种中的概率为：p0=1/1, p1=0, p2=0
- $Ent(D^{3})=-\sum_{k=1}^{3}(p_{k}log_{2}p_{k})=-(1log_{2}1+0+0)=0$
D4 数据集中，数据在3个属种中的概率为：p0=0, p1=0, p2=1/1
- $Ent(D^{4})=-\sum_{k=1}^{3}(p_{k}log_{2}p_{k})=-(0+0+1log_{2}1)=0$

所以， $Gain(D, `花萼宽度`) = Ent(D)-\sum_{v=1}^{V}(\frac{\left | D^{v} \right |}{\left | D \right |}Ent(D^{v}))=1.585-\sum_{v=1}^{V}(\frac{\left | D^{v} \right |}{\left | D \right |}Ent(D^{v}))=1.585-(\frac{1}{3}\times 0+\frac{1}{3}\times 1+\frac{1}{6}\times 0+\frac{1}{6}\times 0)=1.252$

(3) 对于花瓣长度属性，一共有5种(V=5)可能得取值。若使用该属性对D进行划分，则可得到5个子集： $D^{1}$ （花瓣长度=1.4）， $D^{2}$ （花瓣长度=4.7）， $D^{3}$ （花瓣长度=4.5）， $D^{4}$ （花瓣长度=6.0）， $D^{5}$ （花瓣长度=5.1）。 $\left | D^{1} \right |=2$ ， $\left | D^{2} \right |=1$ ， $\left | D^{3} \right |=1$ ， $\left | D^{4} \right |=1$ ， $\left | D^{5} \right |=1$ 。
* $Ent(D^{1})=-(1log_{2}1+0+0)=0$
* $Ent(D^{2})=-(0+1log_{2}1+0)=0$
* $Ent(D^{3})=-(0+1log_{2}1+0)=0$
* $Ent(D^{4})=-(0+0+1log_{2}1)=0$
* $Ent(D^{5})=-(0++0+1log_{2}1)=0$
所以， $Gain(D, `花瓣长度`) = 1.585$

(4) 对于花瓣宽度属性，一共有5种(V=5)可能得取值。若使用该属性对D进行划分，则可得到5个子集： $D^{1}$ （花瓣宽度=0.2）， $D^{2}$ （花瓣宽度=1.4）， $D^{3}$ （花瓣宽度=1.5）， $D^{4}$ （花瓣宽度=2.5）， $D^{5}$ （花瓣宽度=1.9）。 $\left | D^{1} \right |=2$ ， $\left | D^{2} \right |=1$ ， $\left | D^{3} \right |=1$ ， $\left | D^{4} \right |=1$ ， $\left | D^{5} \right |=1$ 。
* $Ent(D^{1})=-(1log_{2}1+0+0)=0$
* $Ent(D^{2})=-(0+1log_{2}1+0)=0$
* $Ent(D^{3})=-(0+1log_{2}1+0)=0$
* $Ent(D^{4})=-(0+0+1log_{2}1)=0$
* $Ent(D^{5})=-(0++0+1log_{2}1)=0$
所以， $Gain(D, `花瓣宽度`) = 1.585$