CART与C4.5的区别

虽然两者都是决策树,但CART既可以做分类,又可以做回归,而C4.5只是用于分类。


C4.5说到底是构造决策树来发现数据中蕴涵的分类规则,是一种通过划分特征空间逼近离散函数值的方法。C4.5是基于ID3的改进算法,使用信息增益率作为划分依据。


分类规则是互斥并且完备的,所谓互斥即每一条样本记录不会同时匹配上两条分类规则,所谓完备即每条样本记录都在决策树中都能匹配上一条规则。


CART本质是对特征空间进行二元划分(即CART生成的决策树是一棵二叉树),并能够对标量属性(nominal attribute)与连续属性(continuous attribute)进行分裂。在对标量进行划分时,分为等于该属性和不等于该属性;对连续进行划分时,分为大于和小于。并且在分类的时候是采用GINI作为衡量标准,而不是信息增益了;而在回归时,是使用均方误差作为评价。


值得注意的是,CART对于特征的利用是可以重复的,而作为分类的C4.5则是不能重复利用特征。


GBDT实质上就是一堆回归树的集合,只不过是按照梯度(残差)方向串行训练,而random forest则是并行训练一堆决策树,最后投票决定。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值