西瓜书第四章决策树-详读-第一部分

weixin_55064870

已于 2023-12-21 10:32:46 修改

阅读量431

点赞数 8

文章标签：决策树算法机器学习

于 2023-12-19 16:38:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55064870/article/details/135083696

版权

决策树：一种常见的机器学习方法：每个测试的结果或者是导出进一步的判定问题，或者是最终结论。

一颗决策树通常包含一个根节点、若干个内部节点【属性测试】和若干个叶节点【决策结果】。

决策树学习基本算法：是一种有监督学习算法，主要用于解决分类与回归问题。

1，当前节点包含的样本都属于同一个类别，已经无须再划分。

2，当前属性集为空，或者所有样本在所有属性上取值都相同，无法划分。

3，当前节点包含的样本集合为空，不能再划分。

决策树的生成：对训练集中的样本进行划分，划分需要参照的属性是最优划分属性，此为决策树学习的关键。

一般根节点会包含所有的样本数据，而越往下划分，节点所包含的样本越少，该节点的纯度越高，最后就是叶节点。

信息熵：是度量样本集合纯度最常用的一种指标。

定义： $Ent(D) = - \sum_{|y|}^{k=1}p_{k}\log _{2}p_{k}$

当前样本集合D，以及第k类样本所占比例。

信息增益： $Gain(D,a) = Ent(D) - \sum_{v =1}^{V}\frac{|D^{v}|}{|D|}Ent(D^{v})$

信息增益越大，意味着使用属性a来进行划分所获得的“纯度提升”越大。

注意：信息增益准则偏好取值数目较多的属性。

一个案例：西瓜数据集的决策树判决

该数据集共包含17个训练样本。

1，根节点：包含所有17个样例。

2，计算出根节点的信息熵0.998

3，计算当前属性集合中每个属性的信息增益：颜色等六个属性。分别带公式计算信息增益

4，选择信息增益最大的那个属性，将之定为关键属性。也就是划分用的属性——纹理。

5，如此就生成了决策树的第二层，从根节点到第二层就是按照“纹理”这个属性进行的划分。

6，然后对每一个分支节点做进一步的划分，划分方式与之前划分根节点相同。

7，如此循环往复，可以得到一颗完整的决策树。

信息增益准则偏好取值数目较多的属性，为了避免这个问题，我们可以使用【增益率】

增益率：

增益率准则偏好数目少的属性。

C4.5算法：将信息增益和增益率准则结合使用。先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的那个属性作为划分属性。

基尼指数：

CART决策树，使用基尼指数来选择划分属性。

基尼值：用来度量数据集D的纯度。 $Gini(D) = \sum_{|y|}^{k = 1}\sum_{k^{`}\neq k}^{}p_{k}p_{k^{'}} = 1 - \sum_{k = 1}^{|y|}p_{k}^{2}$

$Gini index(D,a) = \sum_{v = 1}^{V}\frac{D^{v}}{D}Gini(D^{v})$

基尼值，直观来说就是反映了从数据集中随机抽取两个样本，其类别标记不一致的概率。最后选择基尼指数最小的那个属性作为最有划分属性。

剪枝处理：决策树在划分节点的过程中不断地产生分支。但是如果分支过多，就会导致决策树过拟合。因此需要进行剪枝处理。

剪枝策略包含预剪枝和后剪枝。

其中预剪枝是在决策树生成过程中进行的，在每个节点划分前对其进行评估，再决定要不要划分。

后剪枝是对一颗已经完全生成的决策树自底向上的进行判断。判断每个非叶节点是否对泛华性能能的提升有帮助，然后决定是否将其变为叶节点，也就是修剪它。

4.4 连续与缺失值

连续值的处理：采用二分法对连续属性进行离散化处理。比如C4.5决策树。

缺失值的处理：

需要解决的两个问题：【1】在有缺失值的情况下如何选择划分属性。

【2】对于在划分属性上有缺失值的样本，怎么对他进行划分。

【1】在有缺失值的情况下去计算一个属性的信息增益，可以先计算去除缺失值以后的子集，算出信息增益后，在成一个系数，用这个系数来表示整体属性的信息增益。这个系数： $\rho = \frac{\sum_{x\in \tilde{D}}w_{x}^{}}{\sum_{x\in Dw_{x}}}$

【2】在进行结点划分的时候，将存在划分属性缺失的样本划分到所有的节点中，不过要给这个样本乘上一个权重。

4.5 多变量决策树

可以实现斜划分甚至更复杂的划分方式的决策树。

weixin_55064870

关注

8
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
西瓜书第四章决策树-详读-第一部分

决策树：一种常见的机器学习方法：每个测试的结果或者是导出进一步的判定问题，或者是最终结论。决策树：一种常见的机器学习方法：每个测试的结果或者是导出进一步的判定问题，或者是最终结论。一颗决策树通常包含一个根节点、若干个内部节点【属性测试】和若干个叶节点【决策结果】。决策树学习基本算法：是一种有监督学习算法，主要用于解决分类与回归问题。1，当前节点包含的样本都属于同一个类别，已经无须再划分。2，当前属性集为空，或者所有样本在所有属性上取值都相同，无法划分。
复制链接

扫一扫

weixin_55064870 CSDN认证博客专家 CSDN认证企业博客

码龄3年

东北林业大学

7: 原创

144万+: 周排名

21万+: 总排名

2288: 访问

: 等级

126: 积分

36: 粉丝

52: 获赞

4: 评论

46: 收藏

私信

关注

热门文章

最新评论

详读西瓜书第六章支持向量机
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
西瓜书详读-第五章神经网络
CSDN-Ada助手: 恭喜作者发布了西瓜书详读系列的第五章，对神经网络进行了详细的解读。非常感谢作者的辛勤付出和分享，让我们能够从中受益。在下一步的创作中，建议作者可以结合实际案例或者应用场景，进一步深入探讨神经网络的应用和优化方法，让读者能够更好地将理论知识转化为实际技能。希望作者能够继续保持创作的热情，为大家带来更多有价值的内容。
西瓜书第四章决策树-详读-第一部分
CSDN-Ada助手: 恭喜作者发布了新的博客，对西瓜书第四章决策树进行了详细阅读和解读，这对于学习决策树算法的读者来说肯定是非常有帮助的。希望作者能够继续坚持创作，同时建议可以在下一篇博客中加入一些实际案例或者应用场景的分析，让读者更好地理解决策树算法的实际应用。期待作者更多精彩的分享！
西瓜书第三章线性模型阅读笔记
CSDN-Ada助手: 恭喜你写了第四篇博客！阅读你的西瓜书第三章线性模型的笔记让我收获颇丰。不过我觉得下一步可以尝试结合实际案例，深入探讨线性模型的应用和局限性，或者对比不同的线性模型算法，这样能让读者更加深入地理解和学习。希望你能继续坚持创作，期待你更多精彩的文章！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
第一章绪论学习笔记
CSDN-Ada助手: 很高兴看到你写了第二篇博客！你对学习笔记的概念进行了很好的总结和介绍。继续创作下去，你一定会越来越进步的。除了你在标题和摘要中提到的知识和技能，还有一些与机器学习相关的扩展知识和技能。例如，特征选择和降维技术可以帮助提高模型的性能和效率，交叉验证可以用于评估模型的泛化能力，集成学习可以通过结合多个模型来提高预测的准确性等等。这些都是非常有用的工具和方法，希望对你的学习有所帮助。继续保持努力，期待看到更多精彩的博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。