吃瓜教程3——决策树（西瓜书第四章）

雾里看花的学习日常

于 2023-07-31 00:13:27 发布

阅读量117

点赞数

分类专栏：吃瓜教程（西瓜书+南瓜书）文章标签：决策树算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_72415930/article/details/132010399

版权

吃瓜教程（西瓜书+南瓜书）专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章介绍了决策树算法的基本原理，包括从几何角度理解的样本划分以及ID3和C4.5决策树的构建过程。ID3算法基于信息熵和信息增益选择最优属性，而C4.5为了解决信息增益对多取值属性的偏好，引入了增益率作为划分标准。整个讨论旨在提高样本的纯度，构建有效的决策树模型。

摘要由CSDN通过智能技术生成

目录

一、算法原理

从几何角度理解

二、ID3决策树

三、C4.5决策树

一、算法原理

从几何角度理解

根据某种准则划分特征空间

最终目的

将样本越分越“纯”

二、ID3决策树

自信息

$I\left ( X\right ) = -\log_{b}p\left ( x \right )$

信息熵

$H\left ( X\right ) = E\left [I\left (X \right ) \right ]=-\sum_{x}p\left ( x \right )\log_{b}p\left ( x \right )$ （以离散型为例）
即自信息的期望，度量随机变量X的不确定性，信息熵越大越不确定；X各个取值概率均等时信息熵最大（最不确定），某个取值概率为1时信息熵最小（最确定）。

将样本类别标记y视作随机变量，各个类别在样本集合D中的占比pk（k = 1,2,...|y|)视作各个类别取值的概率，则样本集合D（随机变量y）的信息熵（底数b去2）为

$Ent\left ( D\right ) = -\sum_{k = 1}^{|y|}p_{k}\log_{2}p_{k}$

此时信息熵所代表的“不确定性”可以转换理解为集合样本内样本的"纯度"。

条件熵{Y的信息熵关于概率分布X的期望）：

在已知X后Y的不确定性

$H\left ( Y|X \right )=\sum_{x}p\left ( x \right )H\left ( Y|X=x \right )$

从单个属性（特征）a的角度来看，假设其可能取值为 $a^{v}\epsilon \left \{ a^{1} ,a^{2},a^{3}...a^{V}\right \}$ 的样本集合， $|D^{v}|/D$ 表示占比，那么在已知属性a的取值后，样本集合D的条件熵为

$\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}Ent\left ( D^{v} \right )$

信息增益

在已知属性a的取值后y的不确定性减少的量，也即纯度的提升

$Gain\left ( D,a \right ) = Ent(D) - \sum_{v=1}^{V}\frac{|D^{v}|}{|D|}Ent\left ( D^{v} \right )$

ID3决策树

以信息增益为准则来划分属性的决策树

$a_{*} =\arg max_{a\epsilon A}Gain\left ( D,a \right )$

三、C4.5决策树

增益率

信息增益原则对可能取值数目较多的属性有所偏好（例如“编号”这个较为极端的例子，不过其本是原因不是取值数目过多，而是每个区之里面所包含的样本量太少），为减少这种偏好可能带来的不利影响，C4.5决策树选择使用“增益率”代替“信息增益",增益率定义为

$Gain-ration\left ( D,a \right )=\frac{Gain\left ( D,a \right )}{IV\left ( a \right )}$

其中

$IV\left ( a \right ) = -\sum_{v=1}^{V}\frac{|D^{v}|}{|D|}\log_{2}\frac{|D^{v}|}{|D|}$

称为属性a的"固有值”，a的可能取值个数V越大，通常IV（a)也越大。

雾里看花的学习日常

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
吃瓜教程3——决策树（西瓜书第四章）

信息增益原则对可能取值数目较多的属性有所偏好（例如“编号”这个较为极端的例子，不过其本是原因不是取值数目过多，而是每个区之里面所包含的样本量太少），为减少这种偏好可能带来的不利影响，C4.5决策树选择使用“增益率”代替“信息增益",增益率定义为。将样本类别标记y视作随机变量，各个类别在样本集合D中的占比pk（k = 1,2,...|y|)视作各个类别取值的概率，则样本集合D（随机变量y）的信息熵（底数b去2）为。在已知属性a的取值后y的不确定性减少的量，也即纯度的提升。以信息增益为准则来划分属性的决策树。
复制链接

扫一扫

专栏目录

雾里看花的学习日常

CSDN认证博客专家 CSDN认证企业博客

码龄2年

15: 原创

61万+: 周排名

190万+: 总排名

4779: 访问

: 等级

151: 积分

2: 粉丝

1: 获赞

6: 评论

2: 收藏

私信

关注

热门文章

分类专栏

吃瓜教程（西瓜书+南瓜书） 5篇
Excel 9篇

最新评论

吃瓜教程1--概念准备
CSDN-Ada助手: 恭喜你写下了第11篇博客！标题看起来非常吸引人，概念准备对于吃瓜教程这一话题来说肯定是非常重要的。我很期待能够阅读你的博客，从中学到更多关于吃瓜教程的知识。在下一步的创作中，或许你可以考虑加入一些实例或案例，以帮助读者更好地理解概念准备的重要性。同时，也可以提供一些实用的技巧或建议，帮助读者更好地应用这些概念。不过，这只是我个人的建议，你的博客已经很出色了，我期待着你未来更多的创作！加油！
吃瓜教程5——西瓜书第六章
CSDN-Ada助手: 恭喜您写了第15篇博客！标题看起来非常有趣，我迫不及待想要阅读关于西瓜书第六章的内容了。您的吃瓜教程系列一定受到了许多读者的喜爱，能够持续创作并分享您的知识，是一件非常值得赞扬的事情。希望您能继续保持创作的热情，并且继续为我们带来有趣而知识丰富的内容。如果可以的话，我期待着在未来的博客中看到更多关于西瓜书的知识分享，也许可以探索一些实际案例或是分享一些个人经验，这样读者们会更加受益。谢谢您的辛勤工作，期待您的下一篇博客！
吃瓜教程2——线性回归（西瓜书第3章）
CSDN-Ada助手: 恭喜博主完成了第12篇博客！标题看起来很有趣，线性回归这个话题也很有实用价值。西瓜书的第3章应该是个很好的参考。希望博主能够继续保持创作的热情，展开更多深入的教程，比如探讨不同的回归算法或者应用案例等等。期待你的下一篇作品！
吃瓜教程3——决策树（西瓜书第四章）
CSDN-Ada助手: 恭喜你撰写了第13篇博客！标题看起来很有趣，决策树是机器学习领域的一个重要主题。我很期待阅读你对《西瓜书》第四章的解读。继续保持创作的热情！如果可以的话，下一步你可以考虑分享一些实际案例，以便我们更好地理解决策树的应用。谢谢你的分享，并期待你的下一篇文章！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply13 看奖励名单。
Datawhale 10月学习-Free excel 学习笔记1--数据的获取
CSDN-Ada助手: 书山有路勤为径，学海无涯苦作舟，加油！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。