机器学习 笔记2:决策树

参考资料:周志华机器学习书籍 和 Datawhale开源资料 天池链接

  1. 决策树基本流程:
    决策树的组成内涵:
    在这里插入图片描述
    决策树的建立流程:
    在这里插入图片描述
    注意区别属性和类别(标签)。

  2. 划分选择
    如何选择最优的划分属性,决定了每个结点包含的样本的纯度。书中给出了三种划分方法。
    2.1 信息增益
    信息熵:pk 表示当前样本集合 D 中第 k 类样本所占比例。k = 1,2,…,|y|。
    在这里插入图片描述
    信息增益:
    在这里插入图片描述
    信息增益越大,使用属性 a 来划分所获得的纯度提升越大。信息增益对可取值数目较多的属性有所偏好。

    2.2 增益率
    固有值:
    在这里插入图片描述
    增益率:
    在这里插入图片描述
    增益率对可取值数目较少的属性有偏好。使用时,先选出信息增益高于平均水平的,再从中选出增益率大的。
    2.3 基尼指数
    在这里插入图片描述
    在这里插入图片描述
    基尼指数越小,则数据集 D 的纯度越高。

  3. 剪枝处理
    剪枝处理是决策树对付过拟合的主要手段,主动去掉一些分支。有两种基本策略:预剪枝和后剪枝。
    3.1 预剪枝
    决策树生成过程中,划分前评估每个结点,若当前结点划分不能带来泛化性能的提升,则停止划分,并将当前结点标记为叶结点。预剪枝导致很多分支未展开,对后续划分有影响,容易欠拟合。
    3.2 后剪枝
    生成一棵完整的决策树,然后自底向上对非叶结点考察,若将该结点对应的子树替换为叶结点能带来泛化能力的提升,则将该子树替换为叶结点。后剪枝保留了更多分支,泛化能力更好,但是训练时间开销大。

  4. 连续值与缺失值
    4.1 连续值处理
    以上的内容都是针对离散属性来说的,实际上会遇到连续值类型的属性。对于连续属性,可取值数目不再有限,需要采用离散化方法,最简单的策略是二分法,选择划分点 t 将数据集分为在 a 属性上值不大于 t 的样本和大于 t 的样本。事先先把属性集合从小到大排序,t 的取值集合为:
    在这里插入图片描述
    根据信息增益最大标准,选择最优的 t 值,使划分结果最好。
    在这里插入图片描述
    4.2 缺失值处理
    缺失值指样本的某些属性值缺失。在划分属性时,针对某一属性,对除去有缺失值样本后剩余的子集进行信息增益计算,然后乘以无缺失值的样本占全部样本的比例,得到全部样本的集合的信息增益。

  5. 多变量决策树
    决策树中,每个属性都可以看作一个坐标轴,d个属性即对应d维空间,一个样本就对应空间中一个点。决策树的分类边界是多干个分段,每段对应一个属性取值,且都与一个轴平行。这样的话,模型容易变复杂。
    多变量决策树实现了划分边界,简化了模型。非叶结点不再是仅仅对应某个属性,而是对属性的线性组合测试,划分最优属性变为建立一个合适的线性分类器。
    在这里插入图片描述

决策树分类方法在 库 sklearn 中已经封装好,可以直接使用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值