决策树算法

最新推荐文章于 2024-09-11 21:41:09 发布

micro小宝

最新推荐文章于 2024-09-11 21:41:09 发布

阅读量1k

点赞数 1

分类专栏：数据挖掘文章标签：决策树分类算法数据挖掘机器学习

本文链接：https://blog.csdn.net/wxbmelisky/article/details/50829171

版权

数据挖掘专栏收录该内容

4 篇文章 1 订阅

订阅专栏

决策树是一种树型结构，其中每个内部结点表示在一个属性上的测试，每个分支代表一个测试输出，每个叶结点代表一种类别。决策树学习是以实例为基础的归纳学习，采用的是自顶向下的递归方法，其基本思想是以信息熵为度量构造一棵熵值下降最快的树，到叶子结点处的熵值为零，此时每个叶节点中的实例都属于同一类。决策树学习算法的最大优点是，它可以自学习。在学习的过程中，不需要使用者了解过多背景知识，只需要对训练实例进行较好的标注，就能够进行学习。

我们看一个有趣的例子，下面是一位女士准备去相亲时根据男方的条件选择见或不见的决策树示意图：
这里写图片描述

从上图可以看出该女士首先选择年龄这个属性作为分类依据，年龄大于30岁的直接不见，不超过30岁的再看相貌这个属性，如果丑就不见，如果帅或中等的话再看收入…… 直到最终可以判定所有实例的类别。

建立决策树的关键就是在当前状态下选择哪个属性作为分类依据，因此要选择适当的目标函数。目标函数可以选择信息增益、信息增益率和基尼系数，分别对应ID3、C4.5和CART这三种决策树学习算法。下面分别介绍：

1. ID3：

ID3算法是以信息增益作为其特征选择的目标函数的。当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵和条件熵分别称为经验熵和经验条件熵。特征A对训练数据D的信息增益g(D,A)定义为：数据集D的经验熵H(D)与特征A给定条件下数据集D的经验条件熵H(D|A)之差，即g(D,A) = H(D) - H(D|A)。信息增益表示得知特征A的信息而使得数据集D的分类的不确定性减少的程度。
下面详述信息增益的计算方法：
设训练数据集为D，|D|表示其样本个数。设有K个类 $C_{k}$ ， $k=1,2,3,...,K$ ， $|C_{k}|$ 为属于类 $C_{k}$ 的样本个数，显然有 $\sum_{k=1}^{K}|C_{k}|=|D|$ 。设特征A有 $n$ 个不同的取值｛ $a_{1},a_{2},a_{3},...,a_{n}$ ｝，根据A的取值将数据集D划分为 $n$ 个子集 $D_{1},D_{2},D_{3},...,D_{n}$ ， $|D_{i}|$ 表示子集 $D_{i}$ 的样本个数，显然也有 $\sum_{i=1}^{n}|D_{i}|=|D|$ 。子集 $D_{i}$ 中属于类 $C_{k}$ 的样本的集合记为 $D_{ik}$ ， $|D_{ik}|$ 为 $D_{ik}$ 的样本的个数。

（1）计算数据集D的经验熵：

H (D) = - \sum k = 1 K | C k | | D | log | C k | | D |

$H(D)=-\sum_{k=1}^{K}\frac{|C_{k}|}{|D|}\log\frac{|C_{k}|}{|D|}$

（2）计算特征A对数据集D的经验条件熵：

H (D | A) = - \sum i = 1 n \sum k = 1 K p (D k, A i) log p (D k | A i) = - \sum i = 1 n \sum k = 1 K p (A i) p (D k | A i) log p (D k | A i) = - \sum i = 1 n p (A i) \sum k = 1 K p (D k | A i) log p (D k | A i) = - \sum i = 1 n | D i | | D | \sum k = 1 K | D i k | | D i | log | D i k | | D i |

$H(D|A)=-\sum_{i=1}^{n}\sum_{k=1}^{K}p(D_{k},A_{i})\log p(D_{k}|A_{i})=-\sum_{i=1}^{n}\sum_{k=1}^{K}p(A_{i})p(D_{k}|A_{i})\log p(D_{k}|A_{i})=-\sum_{i=1}^{n}p(A_{i})\sum_{k=1}^{K}p(D_{k}|A_{i})\log p(D_{k}|A_{i})=-\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}\sum_{k=1}^{K}\frac{|D_{ik}|}{|D_{i}|}\log\frac{|D_{ik}|}{|D_{i}|}$

（3）计算信息增益：

g (D, A) = H (D) - H (D | A)

$g(D,A)=H(D)-H(D|A)$
根据信息增益的特征选择方法是对训练数据集（或子集）D，计算每个特征的信息增益，选择信息增益最大的特征做为当前状态下的分类依据。

ID3算法的过程如下：
输入：训练数据集 $D$ ，特征集 $A$ ，阈值 $\epsilon$
输出：决策树 $T$
① 若 $D$ 中所有实例属于同一类 $C_{k}$ ，则 $T$ 为单结点树，并将类 $C_{k}$ 作为该结点的类标记，返回 $T$ ；
② 若 $A$ 为空，则 $T$ 为单结点树，并将 $D$ 中实例数最大的类 $C_{k}$ 作为该结点的类标记，返回 $T$ ；
③ 否则，计算各特征 $A_{1},A_{2},...$ 对 $D$ 的信息增益，选择信息增益最大的特征 $A_{m}$ ；
④ 如果 $A_{m}$ 的信息增益小于阈值 $\epsilon$ ，则置 $T$ 为单节点树，并将 $D$ 中实例数最大的类 $C_{k}$ 作为该结点的类标记，返回 $T$ ；
⑤ 否则，对 $A_{m}$ 的每一个可能值 $a_{i}$ ，依 $A_{m}=a_{i}$ 将 $D$ 分割为若干非空子集 $D_{i}$ ，将 $D_{i}$ 中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树 $T$ ，返回 $T$ ；
⑥ 对第 $i$ 个子结点，以 $D_{i}$ 为训练集，以 $A$ -{ $A_{m}$ }为特征集，递归调用步骤①~⑤，得到子树 $T_{i}$ ，返回 $T_{i}$ 。

2. C4.5：

在使用信息增益 g(D,A) 进行特征选择时，取值多的属性更容易使数据更纯，其信息增益更大，训练得到的是一棵庞大且深度浅的数，这样是不合理的。因此用信息增益率对这一问题进行校正。C4.5算法正是以信息增益率作为其特征选择的目标函数的。
信息增益比为：

g R (D, A) = g ( D , A ) H A ( D )

$g_{R}(D,A)=\frac{g(D,A)}{H_{A}(D)}$
其中，

g(D,A) $g(D,A)$ 为信息增益，

HA(D) $H_{A}(D)$ 为训练数据集D关于特征A的值的熵，

H A (D) = - \sum i = 1 n | D i | | D | log | D i | | D |

$H_{A}(D)=-\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}\log\frac{|D_{i}|}{|D|}$

n $n$ 是特征A取值的个数。
C4.5算法和ID3算法类似，只是把特征选择目标函数换成信息增益率，其算法过程参照ID3。

3. CART：

CART算法是以基尼系数作为其特征选择的目标函数的。
在分类问题中，假设由K个类，样本点属于第 $k$ 类的概率为 $p_{k}$ ，则概率分布的基尼系数定义为：

G i n i (p) = \sum k = 1 K p k (1 - p k) = 1 - \sum k = 1 K p 2 k = 1 - \sum k = 1 K (| C k | | D |) 2

$Gini(p)=\sum_{k=1}^{K}p_{k}(1-p_{k})=1-\sum_{k=1}^{K}p_{k}^{2}=1-\sum_{k=1}^{K}(\frac{|C_{k}|}{|D|})^{2}$ 与ID3算法和C4.5算法有所不同的是，CART算法是要选择基尼系数最小的特征做为当前状态下的分类依据。