【机器学习实录】——决策树（Decision tree）

Flyinggg_love

已于 2024-08-22 11:25:46 修改

阅读量1.2k

点赞数 22

文章标签：机器学习人工智能决策树

于 2024-02-13 10:33:37 首次发布

本文链接：https://blog.csdn.net/xiaoyvhuv/article/details/136105534

版权

1.基本概念

1.1 定义

决策树:基于树结构进行决策的处理机制，不断根据某属性进行划分的过程，通常会进行一系列的判断或是“子决策”。

是一种常用的有监督的分类算法。

1.2 策略

“分而治之”，递归进行。

1.3 解释

如下图，当我们需要判断一个西瓜是否为好瓜，我们先判断色泽是否为青绿，如果为正，我们继续进行下一个判断。其中：

1. 每个内部结点表示一种属性的测试

2. 每个分支表示一个测试输出

3. 每个叶节点代表一种类别

【根节点Root】:色泽

【内部结点Node】：根蒂，敲声等

【叶节点Leaf】: 比如与色泽青绿对应的是坏瓜这个叶节点

【分支Branch】:对于色泽来说，有两个分支，指的是该属性取值为 [青绿] 和 [非青绿] 的两种可能结果。

显然，我们能够明白每一个决策都是建立在之前决策的基础之上的，决策树的最终目的是将样本越分越”纯“。

1.4 决策树生长与最优属性的选择

1.4.1 决策树生长流程

决策树的决策过程就是从根结点开始，测试待分类项中对应的特征属性，并按照其值选择输出分支，直到叶子结点，将叶子结点的存放的类别作为决策结果。简单说来，决策树的总体流程是自根至叶的递归过程，在每个中间结点寻找一个「划分」（split or test）属性。

从逻辑角度，是if-else语句的组合
从几何角度，是根据某种准则划分特征空间

1.4.2 递归停止条件

对于一个节点，全是同类样本，那不用执行下一步细分判断
对于一个节点，仍然有异类样本，但是没有下一个属性去判断了，也要终止
对于一个属性的其中一个分类，若数据集中的数据完全没有对应分类中的数据，即空集，那也要终止。

1.4.3 最优属性选择

1. 信息论知识补充：

自信息：,本质上就是一个单位，当b=2时单位为bit,当b=e时单位为nat

假设当前数据集D 中共有y类样本，随机变量X的每个取值x都对应一个p(x) ，这里的p(x)就是第x类样本所占的比例。

（1）信息熵

（自信息的期望）：度量随机变量X的不确定性，信息熵越大越不确定。公式如下：

对信息熵的理解：

其实我们看随机变量X，注意它是一个变量，它是不确定的，当我们某个取值最大时，比如等于p（x=a）=1,那么变量就变成了常量，那其他x取值的概率都等于0，此时信息熵是最小的，因为此时是完全确定的。

当所有可能取值的概率都相等时，信息熵最大，，为 $log(\left | y \right |)$ ,不确定性最大。

解释一下这里的信息熵是怎么计算的

因为我们的决策树模型是一个分类算法，我们想区分鸵鸟和非鸵鸟

- 对于左侧的数据集，总共4个动物，其中有4个鸵鸟，占比4/4，非鸵鸟占比为0，所以 p（x）就是4/4，按照公式计算即可

- 对于右侧的数据集，总共4个动物，其中1个鸵鸟，鸵鸟占比1/4.非鸵鸟占比3/4，同样按照公式计算即可

（2）熵的增益

上一层的熵-当前一层熵的总和

数学意义：熵的变化量
决策树：根节点的熵-当前子节点的熵的和

众所周知，一个数据集/事物涵盖了许多属性，如何确定划分属性？

比如，一个西瓜的属性有根蒂，敲声，纹理，颜色，触感等等

总体思路：计算每个属性的信息增益，比较其大小，大者则被选为划分属性，典型的决策树算法ID3就是基于信息增益来挑选每一节点分支用于划分的属性（特征）的。

如何计算：

信息增益描述了一个特征带来的信息量的多少。在决策树分类问题中，信息增益就是决策树在进行属性选择划分前和划分后的信息差值。典型的决策树算法ID3就是基于信息增益来挑选每一节点分支用于划分的属性（特征）的。

我们看如下例子：

分析数据集，有17个训练样例|y|=2，正例8个，占8/17，反例9个，占9/17

对于根节点，其信息熵为：

由上例，可以计算出每一个属性的信息增益，然后比较其大小，大的就被作为“划分属性”，通过计算每个属性的信息增益，我们发现【纹理】最大，于是使用纹理作为划分属性，那么下一个划分属性如何确定呢？

纹理有三个取值：【清晰】、【稍糊】、【模糊】

对于纹理等于清晰的分支，可以看到有9个样例{1，2，3 ,4 ,5 ,6 ,8 ,10 ,15}，可以选用的属性有{色泽，根蒂，敲声，脐部，触感}（注意：此时应该去除纹理这个属性）

同样进行信息增益的计算,下面以计算色泽的信息增益为例

import math
def Entlog2(x):
    return -x*math.log(x,2)
d1=Entlog2(3/4)+Entlog2(1/4) #青绿
d2=Entlog2(3/4)+Entlog2(1/4) #乌黑
d3=Entlog2(1) #浅白
d=4/9*d1+4/9*d2+1/9*d3
# d=0.721
D=Entlog2(7/9)+Entlog2(2/9) #纹理的Ent
D-0.721
# result= 0.0432