决策树(中):CART,一颗是回归树,另一颗是分类树

本文介绍了CART(Classification and Regression Tree)算法,包括分类树和回归树的工作流程。CART算法基于基尼系数选择最优划分属性,用于创建二叉决策树。在分类任务中,CART通过基尼系数最小化实现;在回归任务中,常使用最小二乘偏差或最小绝对偏差。文章还展示了如何在Python的sklearn库中应用CART算法,并讨论了CART决策树的剪枝方法。
摘要由CSDN通过智能技术生成

决策树(中):CART,一颗是回归树,另一颗是分类树

基于信息度量的不同方式,把决策树分为ID3算法、C4.5算法和CART算法,CART算法叫做分类回归树,ID3和C4.5算法可以生成二叉树或多叉树,而CART只支持二叉树,既可以作分类树,又可以作回归树

什么是分类树?什么是回归树?

img

能看到不同职业的人,年龄也不同,学习时长也不同,如果构造一颗决策树,想要基于数据判断这个人职业身份,就属于分类树,因为是从几个分类中来做选择,如果给定了数据,想要预测这个人的年龄,那就属于回归树。

所谓分类树就是面向分类的,每个决策树最末端的叶子结点出来的是一个分类标签,不是0就是1或者2等类别。回归树就是面向回归的,回归就是拟合函数一样,输出连续值,比如根据一大堆当天的特征输出明天的气温,气温是每个样本唯一输出的值,只不过输出的值根据特征的不一样输出值不一样而已,但是它们输出的意义是一样的,那就是都是气温。
分类树可以处理离散数据,也就是数据种类有限的数据,它输出的是样本的类别,而回归树可以对连续型的数值进行预测,也就是数据在某个区间内都有取值的可能,它输出的是一个数值

CART分类树的工作流程

决策树的核心就是寻找纯净的划分,在属性选择上,通过统计“不纯度”来判断的,ID3是基于信息增益做判断,C4.5在ID3基础上做引进,提出了信息增益率的概念,CART分类树属性选择的指标采用的是基尼系数,基尼系数本身反映了样本的不确定度,当基尼系数越小的时候说明样本之间的差异性小,不确定程度低,分类的过程本身是一个不确定度降低的过程,即纯度提升过程,所以CART算法在构造分类树的时候,会选择基尼系数最小的属性作为属性的划分

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值