虽然两者都是决策树,但CART既可以做分类,又可以做回归,而C4.5只是用于分类。
C4.5说到底是构造决策树来发现数据中蕴涵的分类规则,是一种通过划分特征空间逼近离散函数值的方法。C4.5是基于ID3的改进算法,使用信息增益率作为划分依据。
分类规则是互斥并且完备的,所谓互斥即每一条样本记录不会同时匹配上两条分类规则,所谓完备即每条样本记录都在决策树中都能匹配上一条规则。
CART本质是对特征空间进行二元划分(即CART生成的决策树是一棵二叉树),并能够对标量属性(nominal attribute)与连续属性(continuous attribute)进行分裂。在对标量进行划分时,分为等于该属性和不等于该属性;对连续进行划分时,分为大于和小于。并且在分类的时候是采用GINI作为衡量标准,而不是信息增益了;而在回归时,是使用均方误差作为评价。
值得注意的是,CART对于特征的利用是可以重复的,而作为分类的C4.5则是不能重复利用特征。
GBDT实质上就是一堆回归树的集合,只不过是按照梯度(残差)方向串行训练,而random forest则是并行训练一堆决策树,最后投票决定。