决策树算法

本文介绍了决策树算法的发展,从ID3到C4.5再到CART,探讨了信息熵、信息增益、信息增益率和GINI值在选择最优属性中的作用。CART算法不仅用于分类树,也适用于回归树。同时,文章讲解了CART剪枝的CCP代价复杂度剪枝法,包括两个关键步骤。
摘要由CSDN通过智能技术生成

决策树算法的发展历程:ID3(1970s) -> C4.5 -> CART
纯度:样本集合的不确定度。通常可以用信息熵 or 信息增益来表示。

ID3算法

使用信息增益来划分最优属性。
信息增益(信息不确定性减少的程度最大): 信息熵-条件熵。
在这里插入图片描述
但这样做的局限性在于,如果存在一个唯一的属性,那么选择它作为最优划分属性时,信息增益最大,然而这样构建的树完全不具有泛化性。由此引入信息增益率。

C4.5算法

信息增益率:信息增益 / IV(a)
在这里插入图片描述
IV(a):属性a的固有值,其中V=a属性可以被划分的类别数量
在这里插入图片描述
可以看出,V越大,IV(a)越大,信息增益率越小,从而避免偏好类别较多的属性。但单纯使用的局限性在于,会偏向选择类别最少的属性。
综合来看,经过两个步骤的选择是比较靠谱的:
step1.先选出信息增益高于平均水平的属性,step2.再在这些属性中选择信息增益

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值