【机器学习】决策树-Gini指数

CART是用于构建决策树的算法,它生成的是二叉树结构,适用于分类和回归任务。在回归任务中,CART基于平方误差最小化准则;在分类任务中,使用Gini指数。终止条件包括样本数、树高度和剩余属性。基尼指数用于度量数据集纯度,选择最优划分属性。文章提供了一个根据有房者、婚姻、年收入预测贷款拖欠的案例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. CART树

        分类回归树(CART,Classification And Regression Tree)算法是一种决策树分类方法。CART每一个节点上都采用二分法,采用一种二分递归分割的技术,CART生成的树必须是二叉树,也就是无论回归还是分类,无论特征离散还是连续,无论属性取值有多个还是两个,内部节点只能根据属性进行二分。因此,CART算法生成的决策树是结构简洁的二叉树。  CART算法既可以用分类任务,也可用于回归任务。

1-2 回归树

     CART作为回归树:使用平方误差最小准则来选择特征并进行划分,也叫最小二乘回归树。对于特征j,找到j所有的划分点s,s将数据集分为c1、c2两部分,找出使得两部分的方差最小,同时整体方差最小的特征j以及划分点s。对于离散特征,采用均值或者中位数作为节点的输出结果。

1-3 分类树

     CART作为分类树:使用Gini指数最小化准则来选择特征并进行划分。

1-4 终止条件

     CART算法构建二叉树 终止条件:

        1、所有叶节点样本数为1,或属于同一类,或小于某一阈值;

        2、树的高度到达某一阈值;

        3、无剩余属性。

2. 基尼指与基尼指数

2-1 基尼值 

        基尼值可用来度量数据集的纯度,数据集D的基尼系数Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率,因此Gini(D)越小,则数据集D的纯度越高。pk表示选中的样本属于k类别的概率,则这个样本被分错的概率是(1-pk)

2-2 基尼指数 

        基尼指数(基尼不纯度):表示在样本集合中一个随机选中的样本被分错的概率。
       Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。 即 基尼指数(基尼不纯度)= 样本被选中的概率 * 样本被分错的概率。

         对于特征A,若其将数据集分为D1和D2两部分,则其基尼指数为:

        在候选集中,选择那个使得划分后基尼指数最小的属性作为最优的划分属性。

2-3 案例 

    1. 案例根据'有房者'、'婚姻'、'年收入'三个特征判断是否回拖欠贷款。

    2.   根据gini指数构建cart分类树的过程如下:

3.总结

        基尼系数也是一种衡量信息不确定性的方法,与信息熵计算出来的结果差距很小,基本可以忽略,但是基尼系数要计算快得多,因为没有对数。熵和基尼指数的关系如下图:

Reference:
        1. https://www.cnblogs.com/yuyingblogs/p/15319571.html 
Gini指数是一种常用的判断决策树节点拆分质量的指标。在决策树的构建过程中,可以通过计算该指标来选择最佳的节点划分属性。与此同时,通过预剪枝方法来增加决策树的剪枝,减少模型的过拟合。 预剪枝是指在决策树的构建过程中,在划分一个节点之前,先对划分所得的子节点进行估计,检查该节点是否满足停止条件,如果不满足则停止划分,将该节点标记为叶子节点,并进行剪枝。在采用Gini指数预剪枝时,可以通过计算每一次划分后的Gini指数值的变化,来判断是否进行剪枝。 具体来说,可以在构建决策树的过程中,对每个节点计算划分前后的Gini指数的变化值,即原节点的Gini指数减去子节点的加权平均Gini指数。如果这个变化值小于某个阈值,那么就认为预剪枝是合理的,可以停止进一步划分,进行剪枝操作。 采用Gini指数预剪枝的优点是可以加快决策树的构建速度,并且防止了模型的过拟合。过拟合是指模型过于复杂,过度拟合了训练数据,导致在新的测试数据上性能下降。采用预剪枝可以限制决策树的增长,避免了过拟合的问题,提高了模型的泛化能力。 然而,Gini指数预剪枝的缺点是在剪枝操作中可能会过早停止划分,导致决策树的准确性下降。因此,在实际应用中,需要通过交叉验证等方法来确定最佳的阈值,以平衡剪枝和准确性之间的关系。同时,也可以尝试其他的剪枝策略,如后剪枝方法,进一步改进决策树的性能。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值