决策树

常见的决策树有三种,ID3,C4.5,Cart,它们是按照不同的分割指标和分割方法形成的。其中分割指标都是基于信息熵出发而来的。关于熵这方面的知识,可见博客。 在决策树中,我们就将信息熵视为度量样本集合的纯度的指标。

(1)ID3:以信息增益为准则来选择最优划分属性。

          信息增益基于信息熵来计算,简单的说就是用根据某个特征分割前的信息熵来减去分割后的信息熵,这样就能衡量该特征对数据集划分得好不好,信息增益越大越好,越说明分得纯。但是,这样分割会有一定的缺陷:我们希望信息增益越大越好,这就导致ID3会偏向于取值较多的特征进行分割,因为该特征取值越多,就能分得越细,让数据分得越纯,信息增益就越高,这就导致了算法的偏好性。为了改进这一点,于是就有了C4.5。除此之外,ID3还有不能处理连续值和容易过拟合(偏向取值多的特征也是因素之一)的缺点。

(2)C4.5:基于信息增益率准则选择最优分割属性的算法

         ID3的问题在于会偏向取值较多的特征,所以在C4.5中就引入一个被称为分裂信息的项来惩罚取值较多的特征。

                                                                   

分子的计算与ID3一样,分母则与特征a的取值个数成正比。但是如果仅仅是这样,那么算法又会偏向值少的特征。所以实际上C4.5决策树先从候选划分特征中找出信息增益高于平均水平的特征,再在其中选出信息增益率最高的。同时也加入了对连续值得处理,简单地说是将连续特征离散化后再进行信息增益率计算,具体可见决策树中连续值的处理

(3)CART:以基尼系数为准则选择最优划分属性,可以应用于分类和回归

          ID3和C4.5都只能用于分类,而CART不仅能用于分类也能用于回归。值得注意的是,CART是一颗二叉树,采用二元切分法,每次将数据切成两份,分别进入左子树,右子树。分割时采用基尼系数来选择最好的特征,gini秒描述的是纯度,与信息熵的含义相似,实际上可以将基尼系数看成信息熵中logP在P=1处一阶泰勒展开的结果,详情见信息熵与基尼指数的关系

                                                                      preview

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值