决策树算法原理以及ID3、C4.5、CART算法

这个概念最早出现在热力学中。它的物理意思表示该体系的混乱程度。简单地说，如果该体系下的分子运动杂乱程度增加，则该体系的熵也随之增加。在熵这个概念普及之后，1948年，信息论之父克劳德·艾尔伍德·香农提出了信息熵的概念，用来描述信息的混乱程度或者信息的不确定度。（据说香农的墓碑上只刻了信息熵的计算公式。）

信息熵

假设变量X的随机取值为X={x1,x2,...,xn }，每一种取值的概率分别是{p1,p2,p3,...pn },则变量X 的熵为：

举例说明：

#如果有4个球，1个颜色。

则该颜色的球所占比例为1，可计算该集合的信息熵=-1*log2(1)=0

#如果有4个球，4个不同颜色。

则每种颜色的球所占比例为1/4，可计算该集合的信息熵=-4*1/4*log2(1/4)=2

#如果有8个球，8个不同颜色。

则每种颜色的球所占比例为1/8，可计算该集合的信息熵=-8*1/8*log2(1/8)=3

可见，系统的熵最小为0，最大可以无穷。熵越小，说明集合的纯度越高。

集合S的信息熵计算（划分前的信息熵）

设有限个样本点集合S，分类属性为C={C1, C2,…, Ck}，假设当前样本集合S中第i类（即Ci）样本所占的比例（或称其为概率）为pi(i=1,2,...,k)，则样本集S的信息熵为：

或者描述为

（当然有些地方是H(S)=.........，我个人其实也是习惯用H(S)的包括下面用到E（）我其实都更喜欢用H（），但是额。。。。这个公式我懒得打了，就用了某教材上的了，这两个是一个意思）

意味着C是分类属性，S相对于C的信息熵。

信息熵的值越大，集合的纯度越低。不难证明，当pi=1时，信息熵=0，取最小值，集合纯度达到最高。此外，也可以证明，当（p1=p2=...=pk=1/n），信息量的不确定程度最大，信息熵达到最大值。

各个子集的信息熵和计算（划分后的信息熵）——条件熵

显然，对于父结点，需要选择一个最佳划分条件，使得利用这个划分条件划分后的各个子集的纯度更高，即划分后的信息熵的值达到最小。

假设某特征A有V个可能的取值{a1, a2, …, av}，若使用A来对样本集S进行划分，则会产生V个分支结点，即得到S的V个子集{S1, S2, …, Sv}，其中，Si(i=1,2,...,v)中包含了S中所有，在特征A上取值为ai的样本集。可根据式E（Si）计算出 Si的信息熵，再考虑到不同分支结点所包含的样本数不同，给分支结点赋予权重| Si|/|S|，即样本数越多的分支结点的影响越大，从而可得用属性A对样本集S进行划分后的信息熵。我把这个熵理解为所有子集的信息熵之和。

其实这个信息熵也被称之为条件熵

（有时候会用H(S|A)来表示）

根据信息熵的概念，E(S, A)的值越小，表明利用条件属性A对S进行子集划分的纯度越高，即分类能力越强。

信息增益（划分前-划分后）

为了测试条件属性A的效果，需要比较父结点与子结点之间的纯度差异，这种差异越大，则说明该测试条件越好，即该条件属性的分类能力越强，而信息增益(information gain)则是这种差异的判断标准。用条件属性A划分样本集合S所得的信息增益为：

Gain(S,A)=E(S)-E(S,A) （3-3）

这个信息增益很多时候是用 $g(S,A)=H(S)-H(S | A)$ 来表示

H(S | A)就是上面的条件熵

一般而言，信息增益越大，则意味着使用属性A来进行划分所获得的“纯度提升”更大。因此，可采用信息增益来进行决策树的划分属性选择。

ID3算法的缺点

ID3的缺点其实也很明显：

第一.ID3没有剪枝策略，容易过拟合（剪枝策略下一章博客会讲述）

第二.信息增益准则对可取值数目较多的特征有所偏好，类似‘编号’的特征其信息熵增益近似于1，也就是说信息增益再可取值多的特征上会表现得比较大，影响最终决策树的构建从而影响结果。

第三.只能用于处理离散分布的特征

第四.没有考虑缺失值

C4.5算法

改进点

C4.5算法是对ID3的算法的改进，因为是改进，所以大多基本都是相同的，下面将介绍几个改进点。

C4.5较于ID3算法的改点：

第一.引入信息增益率 $Gain_{ratio}(D,A)$ ，来作为分类标准，也就是把信息增益换成了信息增益率，这样做可以客服ID3对特征数目的偏重的缺点

第二.在决策树构造的时候进行剪枝，引入悲观剪枝策略进行后剪枝（剪枝下一章博客会讲）

第三.能处理非离散数据

第四.能够对不完整的数据进行处理（以后会介绍）

信息增益率

其实就是某特征的信息增益/总样本集信息熵

（本图中D是总样本集， $D_{i}$ 表示的总样本集中某类别占的某部分子集， $H_{A}(D)$ 是表视总样本集中各个类别的信息熵或者说样本的信息熵，另外，本图的表示方法才是我习惯用的）

CART算法

特点

在该算法中选择特征的方法是基尼指数，基尼指数越小，不纯度越低，特征越好。

该算法可以用于创建分类树也可以用于创建回归树

如果目标变量（样本特征）是离散的，创建分类树，如果是线性的创建回归树

CART分类树采用的是叶子节点（叶节点也就是最后结果，上面的那一个子节点）离概率最大的类别作为当前节点的预测类别

基尼指数

基尼指数也称之为基尼系数，表示在一个样本集中一个随机选中的样本被分错的概率。

下面用某本教材的照片截图来介绍怎么计算基尼指数（我觉得这个教材介绍的还怪清楚的）：

这个Gini(D | A)可能需要说一下， $D_{i}$ 表示的当某特征取某一个值，该值所对应的样本集合，D就是总样本集合，他们的绝对值相比就是所谓的某特征值样本集对应的概率。

后续

本篇博客主要介绍决策树，CART分类树或者说CART算法知识简单的提了一下关键点。

后续会仔细的介绍决策树的实现（ID3算法实现），以及剪枝策略还有CART分类树的详情还有实现注意事项

老肝犯

关注

27
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
决策树算法原理以及ID3、C4.5、CART算法

可根据式E（Si）计算出 Si的信息熵，再考虑到不同分支结点所包含的样本数不同，给分支结点赋予权重| Si|/|S|，即样本数越多的分支结点的影响越大，从而可得用属性A对样本集S进行划分后的信息熵。也就是我们所说的样本点的类别。3.然后对各个子样本进行相同的处理，就是也是筛选出子样本里面的各个特征，被处理后的值，与子样本被该技术处理后的值相差最大的，所对应的特征，这样得到子节点。（根节点是树的顶端，子节点就是树内部的节点，叶节点就是一个树的叶子，在这里表示为，最后得到的对某样本点的特征判断后，得到类别。
复制链接

扫一扫