2.CART: 分类与回归树

最新推荐文章于 2024-05-14 17:05:40 发布

gnaHuhSiL

最新推荐文章于 2024-05-14 17:05:40 发布

阅读量1k

点赞数

文章标签：机器学习数据挖掘算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zstu_lihang/article/details/122348072

版权

CART: 分类与回归树

摘要由CSDN通过智能技术生成

1.CART算法

分类与回归树（classification and regression tree，CART）模型由Breiman等人在1984年提出，是应用广泛的决策树学习方法。CART同样由特征选择、树的生成及剪枝组成，既可以用于分类也可以用于回归。以下将用于分类与回归的树统称为决策树。

CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。 CART假设决策树是二叉树，内部结点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征，将输入空间即特征空间划分为有限个单元，并在这些单元上确定预测的概率分布，也就是在输入给定的条7件下输出的条件概率分布。

CART算法由以下两步组成：
（1）决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大；
（2）决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。

2.CART生成

决策树的生成就是递归地构建二叉决策树的过程。对分类树用基尼指数（Gini index）最小化准则，对回归树用平方误差最小化准则，进行特征选择，生成二叉树。

2.1 分类树的生成

CART分类树算法使用基尼系数选择特征，基尼系数代表了模型的不纯度，基尼系数越小，不纯度越低，特征越好。

（1）基尼指数

分类问题中，假设有K个类，样本点属于第k类的概率为pk，则概率分布的基尼指数定义为：

$=\displaystyle\sum_{k=1}^{K}p_k(1-p_k)=1-\displaystyle\sum_{k=1}^{K}p_k^2$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2.CART: 分类与回归树

CART: 分类与回归树
复制链接

扫一扫

gnaHuhSiL CSDN认证博客专家 CSDN认证企业博客

码龄6年

31: 原创

10万+: 周排名

105万+: 总排名

4万+: 访问

: 等级

467: 积分

25: 粉丝

39: 获赞

2: 评论

232: 收藏

私信

关注

热门文章

最新评论

1.决策树C4.5算法
清姝ll: 写错了应该是H(A)
1.决策树C4.5算法
-_日子和我都不难过: 你的信息增益比和信息增益没有区别呀，除以同一个常熟

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。