机器学习 第四章 决策树-阅读笔记+公式推导

4.1 基本流程

  • 流程:
    在这里插入图片描述
  • 基于树结构进行决策的,与人类决策问题的机制相似
  • 决策过程的最终结论对应了我们所希望的判定结果
  • 决策过程中提出的每个判定问题都是对某个属性的“测试”
  • 每个测试的结果或是导出最终结论,或是导出进一步的判定问题,其考虑范围时再上次决策结果的限定范围之内
  • 目的时为了产生一颗泛化能力强的决策树
  • 基本流程是分而治之的递归过程
    在这里插入图片描述

4.2 划分选择

  • 关键:如何选择最优划分属性,随着划分过程不断进行,我们希望决策树的分支结点所包含的样本尽可能属于同一类别,即结点的“纯度”越来越高

4.2.1 信息增益(ID3使用-Iterative Dichotomiser 迭代二分器

  • 信息熵:度量样本集合纯度最常用的一种指标
    在这里插入图片描述
  • 评判标准:信息熵的值越小,则纯度越高
    在这里插入图片描述
  • 可用选择最大信息增益的准则来递归地选择划分每个属性

4.2 增益率(C4.5使用

在这里插入图片描述

  • 但是增益率准则对可取值数目较少的属性有所偏好,C4.5算法的启发式策略:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。

4.2.3 基尼指数(CART决策树使用-Classification and Regression Tree 分类和回归任务都可用

在这里插入图片描述

4.3 剪枝处理

在这里插入图片描述

  • 基本策略:预剪枝和后剪枝
  • 预剪枝:在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶节点;
  • 后剪枝:先从训练集生成一颗完整的决策树,然后自底向上地对非叶节点进行考察,若将该结点对应的子树替换为叶节点能带来决策树泛化性能提升,则将该子树替换为叶节点。

4.3.1 预剪枝

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 总结而言:先根据信息增益或是别的准则选择一个划分属性,对训练集和测试集进行划分,计算将该节点展开分支和不展开分支的精度,如果精度不能提高就不展开了。
    在这里插入图片描述

4.3.2 后剪枝

在这里插入图片描述

  • 过程:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

4.4 连续与缺失值

4.4.1 连续值处理-连续属性离散化

  • 最简单的策略:二分法
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

4.4.2 缺失值处理

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 流程示例:
    在这里插入图片描述
    在这里插入图片描述

4.5 多变量决策树

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
tips:

  • 增量学习
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值