2.CART: 分类与回归树

CART: 分类与回归树
摘要由CSDN通过智能技术生成

1.CART算法

    分类与回归树(classification and regression tree,CART)模型由Breiman等人在1984年 提出,是应用广泛的决策树学习方法。CART同样由特征选择、树的生成及剪枝组成,既可以用于分类也可以用于回归。以下将用于分类与回归的树统称为决策树。

    CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。 CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。这样的决策树等价于递归地二分每个特征,将输入空间即 特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,也就是在输入给定的条7件下输出的条件概率分布。

    CART算法由以下两步组成:
        (1)决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大;
         (2)决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损失 函数最小作为剪枝的标准。

2.CART生成

    决策树的生成就是递归地构建二叉决策树的过程。对分类树基尼指数(Gini index)最小化准则,对回归树平方误差最小化准则,进行特征选择,生成二叉树。

2.1 分类树的生成

    CART分类树算法使用基尼系数选择特征,基尼系数代表了模型的不纯度,基尼系数越小,不纯度越低,特征越好

(1)基尼指数

    分类问题中,假设有K个类,样本点属于第k类的概率为pk,则 概率分布的基尼指数定义为:

G i n i ( p ) = ∑ k = 1 K p k ( 1 − p k ) = 1 − ∑ k = 1 K p k 2 Gini(p) =\displaystyle\sum_{k=1}^{K}p_k(1-p_k)=1-\displaystyle\sum_{k=1}^{K}p_k^2 Gini(p)=k=1Kpk(1pk)=1k=

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值