基尼指数CART算法(分类树)

基尼指数CART算法(分类树)——分类树,分类的标签是离散的,如 好/不好
基尼指数(Gini Index)是CART(Classification And Regression Tree)算法中用于分类任务的一种评估指标,用于衡量数据集的不纯度或者不确定性
在构建决策树时,CART算法会根据基尼指数来选择最优的特征进行数据集的分割。

基尼指数定义:

基尼指数 G i n i ( p ) Gini(p) Gini(p) 表示从数据集中随机抽取两个样本,它们类别标记不一致的概率。对于一个包含 ( K ) 个类别的数据集 ( D ),其基尼指数计算公式为:

G i n i ( D ) = ∑ k = 1 K p k ( 1 − p k ) = 1 − ∑ k = 1 K p k 2 Gini(D) = \sum_{k=1}^{K} p_k (1 - p_k) = 1 - \sum_{k=1}^{K} p_k^2 Gini(D)=k=1Kpk(1pk)=1k=1Kpk2

其中, p k p_k pk 表示类别 ( k ) 在数据集 ( D ) 中的比例。基尼指数的取值范围在 [ 0 , 1 ] [0, 1] [0,1] 之间,值越小表示数据集的纯度越高,即属于同一类别的样本占比越大。

CART算法与基尼指数的使用:

在CART分类树中,算法的目标是找到一个特征和阈值,使得依据这个特征和阈值划分数据后的两个子集的基尼指数之和最小。具体步骤如下:

  1. 计算基尼指数: 对于每个特征,算法会尝试所有可能的切分点,并计算切分后左右子集的基尼指数。

  2. 选择最佳切分: 选择使得划分后基尼指数加权和最小的那个特征和切分点作为最优划分。
    加权和是根据子集大小(样本数量)来计算的,即 G i n i t o t a l = ∣ D l e f t ∣ ∣ D ∣ G i n i ( D l e f t ) + ∣ D r i g h t ∣ ∣ D ∣ G i n i ( D r i g h t ) Gini_{total} = \frac{|D_{left}|}{|D|}Gini(D_{left}) + \frac{|D_{right}|}{|D|}Gini(D_{right}) Ginitotal=DDleftGini(Dleft)+DDrightGini(Dright),其中 D l e f t D_{left} Dleft D r i g h t D_{right} Dright 分别代表划分后的左子集和右子集。

  3. 递归构建树: 以选定的特征和阈值进行数据集的分割,然后对每个子集重复上述过程,直至满足停止条件(如节点中的样本都属于同一类别、达到预设的最大深度、节点中的样本数低于某个阈值等)。

  4. 剪枝: 构建完成的决策树往往需要通过剪枝来防止过拟合,这通常包括预剪枝(在构建过程中提前停止树的增长)和后剪枝(先构建完整的树,再删除某些子树以减少复杂度)。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • 34
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不易撞的网名

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值