决策树（中）：CART，一颗是回归树，另一颗是分类树

最新推荐文章于 2023-11-28 23:37:14 发布

ywangjiyl

最新推荐文章于 2023-11-28 23:37:14 发布

阅读量400

点赞数

分类专栏：数据分析实战跟宝宝一起学习

本文链接：https://blog.csdn.net/ywangjiyl/article/details/105042572

版权

本文介绍了CART（Classification and Regression Tree）算法，包括分类树和回归树的工作流程。CART算法基于基尼系数选择最优划分属性，用于创建二叉决策树。在分类任务中，CART通过基尼系数最小化实现；在回归任务中，常使用最小二乘偏差或最小绝对偏差。文章还展示了如何在Python的sklearn库中应用CART算法，并讨论了CART决策树的剪枝方法。

摘要由CSDN通过智能技术生成

决策树（中）：CART，一颗是回归树，另一颗是分类树

基于信息度量的不同方式，把决策树分为ID3算法、C4.5算法和CART算法，CART算法叫做分类回归树，ID3和C4.5算法可以生成二叉树或多叉树，而CART只支持二叉树，既可以作分类树，又可以作回归树

什么是分类树？什么是回归树？

能看到不同职业的人，年龄也不同，学习时长也不同，如果构造一颗决策树，想要基于数据判断这个人职业身份，就属于分类树，因为是从几个分类中来做选择，如果给定了数据，想要预测这个人的年龄，那就属于回归树。

所谓分类树就是面向分类的，每个决策树最末端的叶子结点出来的是一个分类标签，不是0就是1或者2等类别。回归树就是面向回归的，回归就是拟合函数一样，输出连续值，比如根据一大堆当天的特征输出明天的气温，气温是每个样本唯一输出的值，只不过输出的值根据特征的不一样输出值不一样而已，但是它们输出的意义是一样的，那就是都是气温。
分类树可以处理离散数据，也就是数据种类有限的数据，它输出的是样本的类别，而回归树可以对连续型的数值进行预测，也就是数据在某个区间内都有取值的可能，它输出的是一个数值

CART分类树的工作流程

决策树的核心就是寻找纯净的划分，在属性选择上，通过统计“不纯度”来判断的，ID3是基于信息增益做判断，C4.5在ID3基础上做引进，提出了信息增益率的概念，CART分类树属性选择的指标采用的是基尼系数，基尼系数本身反映了样本的不确定度，当基尼系数越小的时候说明样本之间的差异性小，不确定程度低，分类的过程本身是一个不确定度降低的过程，即纯度提升过程，所以CART算法在构造分类树的时候，会选择基尼系数最小的属性作为属性的划分

最低0.47元/天解锁文章

ywangjiyl

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
决策树（中）：CART，一颗是回归树，另一颗是分类树

决策树（中）：CART，一颗是回归树，另一颗是分类树基于信息度量的不同方式，把决策树分为ID3算法、C4.5算法和CART算法，CART算法叫做分类回归树，ID3和C4.5算法可以生成二叉树或多叉树，而CART只支持二叉树，既可以作分类树，又可以作回归树什么是分类树？什么是回归树？能看到不同职业的人，年龄也不同，学习时长也不同，如果构造一颗决策树，想要基于数据判断这个人职业身份，就属于分类...
复制链接

扫一扫

专栏目录