常见的决策树

本文介绍了决策树的基础知识,包括ID3、C4.5和CART三种常用的决策树算法。决策树通过信息增益、信息增益比或基尼指数选择最优特征,防止过拟合采用剪枝策略。ID3使用信息增益,C4.5用信息增益比,而CART则是基于最小基尼指数。CART构建的是二叉树,其左右分支分别对应特征的肯定和否定情况。这三种算法在特征选择和防止过拟合上有所不同,但都用于分类任务,且具备特征筛选功能。
摘要由CSDN通过智能技术生成

阅读李航《统计学习方法》第五章 决策树笔记

  • 决策树是一种基础的分类回归算法(可用于回归哦),不过书中主要讨论了用于分类的决策树。主要提到三类常用的决策树ID3,C4.5,CART
  • 决策树为了防止过拟合的问题,使用了剪枝(本质上就是设置了一个参数epsilon:对ID3和C4.5,计算信息增益/信息增益比,如果大于epsilon则作为最优结点,继续发展;对CART而言,计算数据集D labels的gini与特征下gini差值是否小于epsilon,小于则不作为最优结点继续发展了)
  • ID3使用信息增益作为特征选择,每次取信息增益最大的特征作为父结点
  • C4.5使用信息增益比作为特征选择的指标,是ID3的升级版本,除衡量指标不同外,其他构建流程一致
  • CART与ID3、C4.5不同,最优特征的选择不是取衡量指数的最大值,而是取Gini指数最小的特征作为最优特征
  • 衡量指标:ID3使用信息增益,C4.5使用信息增益比,CART使用gini指数
  • 树杈数量方面:CART是二叉树,其他不是
  • CART是二叉树,左分支取值“是”,右分支取值“否”
  • 几个概念:熵、条件熵、如果是由数据估计得到的熵和条件熵叫做经验熵,经验条件熵,信息增益,信息增益比,gini指数

ID3逻辑
核心模块:最优特征选择,结果判断
输入数据集,计算每个特征的信息增益(熵-条件熵),比较信息增益最大值与epsilon,

  • 如果大于则取信息增益最大的特征作为父节点,做分叉。分叉处理后形成多个数据子集,继续做循环判断,直到循环结束。
  • 如果小于,则为单结点树,判断结构为此时子集的结果众数
    并不是所有特征都会用到的,决策树起到特征筛选的作用

C4.5
上面流程的信息增益换成信息增益比即可,代码改个函数就好了,其他逻辑不变

CART
数据集输入
因为CART是二叉树,首先把特征组装成新特征,例如年龄(青年,中年,老年),组装完以后一个年龄特征变成三个:(年龄,青年)、(年龄,中年)、(年龄,老年)。如果特征里只有两个值,组装完后还是一个特征,与onehot不同。
计算新特征的gini指数(根据左子树分布与右子树分布计算),比较数据集labels的gini与最小gini的差值,如果小于epsilon,则不做分叉,决策为子集众数。如果大于epsilon,取最小gini特征为父结点,做分叉。分叉处理后形成多个子集,继续做循环,直至整个数据集循环结束。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值