CART生成算法

输入:训练数据集D,停止计算的条件;
输出:CART决策树

根据训练数据集,从根结点开始,递归地对每个节点进行以下操作,构建二叉决策树:
(1)设结点的训练数据集为D,计算现有特征对该数据集的基尼指数。此时,对每一个特征A,对其可能取的每个值a,根据样本点对a的测试为“是”或“否”将D分为D1和D2两个部分,利用如下公式计算A=a时的基尼指数

Gini(D,a)=|D1|/|D|*Gini(D1)+|D2|/|D|*Gini(D2)

(2)在所有可能的特征A以及它们所有可能的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点,依照最优特征和最优切分点,生成两个子结点,将训练数据集依特征分配到两个子结点中去。
(3)对两个子结点递归调用(1),(2)直至满足停止条件。
(4)生成CART决策树。
算法停止计算的条件是节点中的样本个数小于预定阈值,或样本集的基尼指数小于预定阈值(样本基本属于同一类),或者没有更多特征。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值