【西瓜书学习】第4章决策树

wensaaaa

于 2022-08-25 18:05:21 发布

阅读量380

点赞数

分类专栏：西瓜书学习文章标签：决策树机器学习学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wensaaaa/article/details/126528408

版权

西瓜书学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第4章决策树

首先决策树是一类常见的机器学习方法。决策树学习的目的是为了产生一棵泛化能力强，即处理未见示例能力强的决策树，其基本流程遵循简单且直观的"分而治之"。类似可参考程中的if else。

ID3决策树

首先是关于信息熵，条件熵以及信息增益的概念。
信息熵的公式：在这里插入图片描述
其中，Ent(D) 的值越小，则 D 的纯度越高.

信息增益的公式：
信息熵公式

一般而言，信息增益越大，则意味着使用属性 α 来进行划分所获得的纯度提升越大。

ID3决策树学习算法就是根据信息增益来划分属性。

C4.5决策树

实际上，信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，不能对样本进行有效预测。

C4.5 决策树算法不直接使用信息增益，而是使用增益率来选择最优划分属性。

增益率的公式：
在这里插入图片描述
其中，IV（a）指的是a的固有值。

属性 a 的可能取值数目越多(即 V 越大)，则 IV(α) 的值通常会越大.

而增益率也不是能直接运用的，增益率准则对可取值数目较少的属性也有所偏好。

所以，C4.5算法不是直接选择增益率最大的候选划分属性，而是使用了一个启发式，即先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的。（先信息增益，后增益率）

CART决策

这里要引入一个概念就是基尼指数:
基尼值的公式：
在这里插入图片描述

基尼值反映了从数据集 D 中随机抽取两个样本，其类别标记不一致的概率.因此， Gini(D) 越小，则数据集 D 的纯度越高.

基尼指数的公式：
在这里插入图片描述

CART决策树就是选择基尼指数最小的属性作为最优化分属性。

CART树的实际构造算法:
1：对每个属性a的每个可能取值v，讲数据集D分为a=v和a≠v两部分来计算基尼指数：在这里插入图片描述
2：选择基尼指数最小的属性及其对应值作为最优划分属性和最优划分点；
3：最后重复以上两步，直至满足停止条件。

剪枝处理

剪枝(pruning)是决策树学习算法对付"过拟合"的主要手段.
在判断决策树泛化性能是否需要提升，可以用采用流出法，即预留一部分数据用作验证集来进行性能评估。

预剪枝

预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点。

预剪枝使得决策树的很多分支没有展开，这样降低了过拟合的风险，同时还显著减少了决策树的训练时间开销和测试时间开销。但同时因为预剪枝禁止一些分支的展开，给预剪枝决策树也带来了欠拟合的风险。

后剪枝

后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。

后剪枝决策树通常比预剪枝决策树保留更多的分支。一般情形下，后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树。但是后剪枝的训练时间开销要比未剪枝决策树和预剪枝决策树都大得多。

学习心得：通过了快有两个星期的学习，对于西瓜书，我能大概明白不少概念以及算法，但是由于基础知识薄弱，（特别是概率论上，还需要再花费时间进行学习基础知识）做题时往往不能完全做完并且保证正确率，这是后期需要不断提升的地方。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【西瓜书学习】第4章决策树

首先决策树是一类常见的机器学习方法。决策树学习的目的是为了产生一棵泛化能力强，即处理未见示例能力强的决策树，其基本流程遵循简单且直观的"分而治之"。类似可参考程中的if else。
复制链接

扫一扫

专栏目录

wensaaaa CSDN认证博客专家 CSDN认证企业博客

码龄3年

13: 原创

85万+: 周排名

215万+: 总排名

2224: 访问

: 等级

135: 积分

1: 粉丝

3: 获赞

3: 评论

2: 收藏

私信

关注

热门文章

分类专栏

最新评论

AI夏令营|脑PET图像分析和疾病预测挑战赛Task1
CSDN-Ada助手: 恭喜您撰写第13篇博客！标题中提到的AI夏令营脑PET图像分析和疾病预测挑战赛Task1似乎是一个非常有趣和有挑战性的主题。您的博客内容一定是深入浅出地介绍了该挑战赛的背景和目标。不仅如此，您还可能分享了一些关于脑PET图像分析和疾病预测的相关知识，这对读者来说是非常有价值的。在接下来的创作中，我希望您能够继续保持这种深入研究和详尽解释的风格。或许您可以考虑以更加个人化的方式来探讨这一主题，例如分享一些实际案例或者对该挑战赛的个人见解。此外，您还可以探索一些相关的研究领域或者最新的技术进展，以便读者能够更全面地了解这一领域的发展动态。再次恭喜您的连续创作，并期待您未来更多精彩的博客！
零基础入门语音识别-食物声音识别Task01
抓手: 厉害啊，文章思路清晰

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。