西瓜书+实战+吴恩达机器学习（七）监督学习之决策树 Decision Tree

最新推荐文章于 2024-07-09 20:23:41 发布

I can丶

最新推荐文章于 2024-07-09 20:23:41 发布

阅读量1.6k

点赞数 1

分类专栏：机器学习文章标签：机器学习决策树 ID3 C4.5 CART

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhq9695/article/details/87633819

版权

本文详细介绍了决策树的三种算法：ID3、C4.5和CART，包括它们的划分选择、信息熵、信息增益、基尼指数等概念，并探讨了连续值处理和缺失值处理的方法，以及剪枝策略在防止过拟合中的应用。

摘要由CSDN通过智能技术生成

文章目录

0. 前言
1. 划分选择
2. 剪枝
3. 连续值处理
4. 缺失值处理

如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔，我会非常开心的~

0. 前言

一颗决策树包含一个根节点、若干个内部节点、若干个叶子节点，叶子节点对应于决策结果，其他每个节点对应于一个属性测试。

构建决策树算法如下图所示（图源：机器学习）：

有以下三种情况递归返回：

当前节点的所有样本都属于同一个类别
当前可划分的属性集为空，或者属性集的取值都相同
当前节点的样本集为空

1. 划分选择

1.1. ID3决策树

信息熵（information entropy）越小，则节点纯度越高，其中 $p_k$ 表示第 $k$ 类样本所占比例：
$Ent(D)=-\sum_{k=1}^{|K|}p_k\log_2p_k$

信息增益（information gain）越大，则意味使用属性 $a$ 划分获得的纯度提升越大，其中 $D^v$ 表示为 $D$ 中在属性 $a$ 上取值为 $a^v$ 的样本：
$Gain(D,a)=Ent(D)-\sum_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v)$

信息增益更偏向于选择取值较多的特征。

ID3决策树每次划分节点时，使用信息增益最大的属性。

1.2. C4.5决策树

增益率（gain ratio）在信息增益的基础上，除以属性 $a$ 的固有值 $I V (a)$ ，属性 $a$ 取值数目越多，固有值 $I V (a)$ 越大：
$Gain\ ratio(D,a)=\frac{Gain(D,a)}{IV(a)}=\frac{Gain(D,a)}{-\sum_{v=1}^V\frac{|D^v|}{|D|}\log_2\frac{|D^v|}{|D|}}$

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
西瓜书+实战+吴恩达机器学习（七）监督学习之决策树 Decision Tree

文章目录0. 前言1. 划分选择1.1. ID3决策树1.2. C4.5决策树1.3. CART决策树2. 剪枝3. 连续值处理4. 缺失值处理如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔，我会非常开心的~0. 前言一颗决策树包含一个根节点、若干个内部节点、若干个叶子节点，叶子节点对应于决策结果，其他每个节点对应于一个属性测试。构建决策树算法如下图所示（图源：机器学习）：...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。