机器学习第四章决策树-阅读笔记+公式推导

最新推荐文章于 2024-01-05 00:57:04 发布

不知名小七

最新推荐文章于 2024-01-05 00:57:04 发布

阅读量337

点赞数

分类专栏：机器学习文章标签：决策树机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43823669/article/details/126593667

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

第四章决策树

4.1 基本流程
4.2 划分选择
4.3 剪枝处理
- 4.3.1 预剪枝
- 4.3.2 后剪枝
4.4 连续与缺失值
- 4.4.1 连续值处理-连续属性离散化
- 4.4.2 缺失值处理
4.5 多变量决策树

4.1 基本流程

流程：
基于树结构进行决策的，与人类决策问题的机制相似
决策过程的最终结论对应了我们所希望的判定结果
决策过程中提出的每个判定问题都是对某个属性的“测试”
每个测试的结果或是导出最终结论，或是导出进一步的判定问题，其考虑范围时再上次决策结果的限定范围之内
目的时为了产生一颗泛化能力强的决策树
基本流程是分而治之的递归过程

4.2 划分选择

关键：如何选择最优划分属性，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”越来越高

4.2.1 信息增益（ID3使用-Iterative Dichotomiser 迭代二分器

信息熵：度量样本集合纯度最常用的一种指标
评判标准：信息熵的值越小，则纯度越高
可用选择最大信息增益的准则来递归地选择划分每个属性

4.2 增益率（C4.5使用

在这里插入图片描述

但是增益率准则对可取值数目较少的属性有所偏好，C4.5算法的启发式策略：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。

4.2.3 基尼指数（CART决策树使用-Classification and Regression Tree 分类和回归任务都可用

在这里插入图片描述

4.3 剪枝处理

在这里插入图片描述

基本策略：预剪枝和后剪枝
预剪枝：在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶节点；
后剪枝：先从训练集生成一颗完整的决策树，然后自底向上地对非叶节点进行考察，若将该结点对应的子树替换为叶节点能带来决策树泛化性能提升，则将该子树替换为叶节点。

4.3.1 预剪枝

在这里插入图片描述

总结而言：先根据信息增益或是别的准则选择一个划分属性，对训练集和测试集进行划分，计算将该节点展开分支和不展开分支的精度，如果精度不能提高就不展开了。

4.3.2 后剪枝

在这里插入图片描述

过程：

4.4 连续与缺失值

4.4.1 连续值处理-连续属性离散化

最简单的策略：二分法

4.4.2 缺失值处理

在这里插入图片描述

流程示例：

4.5 多变量决策树

在这里插入图片描述

tips：

增量学习

不知名小七

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
机器学习第四章决策树-阅读笔记+公式推导

决策树阅读笔记和注释
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。