决策树

最新推荐文章于 2022-05-01 16:29:27 发布

ym825723

最新推荐文章于 2022-05-01 16:29:27 发布

阅读量2.4k

点赞数

分类专栏： machine learning

本文链接：https://blog.csdn.net/yingjiaotuo8368/article/details/79795678

版权

machine learning 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

常见的决策树有三种，ID3，C4.5，Cart，它们是按照不同的分割指标和分割方法形成的。其中分割指标都是基于信息熵出发而来的。关于熵这方面的知识，可见博客。在决策树中，我们就将信息熵视为度量样本集合的纯度的指标。

（1）ID3：以信息增益为准则来选择最优划分属性。

信息增益基于信息熵来计算，简单的说就是用根据某个特征分割前的信息熵来减去分割后的信息熵，这样就能衡量该特征对数据集划分得好不好，信息增益越大越好，越说明分得纯。但是，这样分割会有一定的缺陷：我们希望信息增益越大越好，这就导致ID3会偏向于取值较多的特征进行分割，因为该特征取值越多，就能分得越细，让数据分得越纯，信息增益就越高，这就导致了算法的偏好性。为了改进这一点，于是就有了C4.5。除此之外，ID3还有不能处理连续值和容易过拟合(偏向取值多的特征也是因素之一)的缺点。

（2）C4.5：基于信息增益率准则选择最优分割属性的算法

ID3的问题在于会偏向取值较多的特征，所以在C4.5中就引入一个被称为分裂信息的项来惩罚取值较多的特征。

分子的计算与ID3一样，分母则与特征a的取值个数成正比。但是如果仅仅是这样，那么算法又会偏向值少的特征。所以实际上C4.5决策树先从候选划分特征中找出信息增益高于平均水平的特征，再在其中选出信息增益率最高的。同时也加入了对连续值得处理，简单地说是将连续特征离散化后再进行信息增益率计算，具体可见决策树中连续值的处理。

（3）CART：以基尼系数为准则选择最优划分属性，可以应用于分类和回归

ID3和C4.5都只能用于分类，而CART不仅能用于分类也能用于回归。值得注意的是，CART是一颗二叉树，采用二元切分法，每次将数据切成两份，分别进入左子树，右子树。分割时采用基尼系数来选择最好的特征，gini秒描述的是纯度，与信息熵的含义相似，实际上可以将基尼系数看成信息熵中logP在P=1处一阶泰勒展开的结果，详情见信息熵与基尼指数的关系。

preview