吃瓜教程—Task03(决策树)

在这里插入图片描述

知识点

决策树

逻辑角度:一堆if else语句的组合
几何角度:根据某种准则划分特征空间
最终目的:将样本越分越纯
 决策树学习的关键,是如何选择最优划分属性,一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即结点的纯度越来越高。
 决策树学习的目的是为了产生一颗泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单而直观的“分而治之”策略。如下图所示:
在这里插入图片描述

ID3决策树

自信息:(一个随机变量所含的信息)
在这里插入图片描述
条件熵:
在这里插入图片描述
信息增益:
在这里插入图片描述
 一般而言,信息增益越大,则意味着使用属性来进行划分所获得的“纯度提升”越大,因此,我们可用信息增益来进行决策树的划分属性选择。

C4.5决策树

 实际上,信息增益准则对可取值数目越多的属性有所偏好,如:把样本编号作为一个候选划分属性,信息增益为0.998。为减少这种偏好可能带来的不利影响,C4.5决策树采用增益率来选择最优划分属性。
在这里插入图片描述
 而只平衡了可取值数目多的时候,当可取值数目小的时候,增益率还是会增大,所以,C4.5采用启发式方法:先先出信息率高于平均水平的属性,然后再从中选择增益率最高的。

CART决策树

 CART决策树使用“基尼指数”来选择划分属性。在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
注意:过在构造 CART 决策树时并不会严格按照此式来选择最优划分属性,主要是因为 CART 决策树是一棵二叉树,如果用上式去选出最优划分属性,无法进一步选出最优划分属性的最优划分点。
CART 决策树的构建过程—西瓜书例子:
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值