决策树(Decision Tree)

最新推荐文章于 2024-10-15 14:59:56 发布

不安的前方

最新推荐文章于 2024-10-15 14:59:56 发布

阅读量361

点赞数

分类专栏：机器学习文章标签：决策树机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44327356/article/details/91375498

版权

本文详细介绍了决策树算法，包括ID3、C4.5和CART三种决策树的划分标准，如信息增益、信息增益率和基尼系数，并探讨了剪枝策略，包括预剪枝和后剪枝。同时，强调了决策树生成和剪枝的重要性，以及在实际编码实现中需要注意的问题。

摘要由CSDN通过智能技术生成

决策树是一种采用分而治之思想的算法，举个例子：假设样本有4个属性，标签有两类。首先我们通过算法找到一个属性，那么现在问题被分解为两个子问题：只有一个属性的问题和三个属性的问题，我们先解决了前者，再处理后者。如此反复，最终解决整个问题，从而得到了整个决策树。

在展开决策树的讨论前，我们先对符号进行定义：样本集S、属性数k、标签分类种数（v分类问题）v。

1、ID3

ID3决策树对属性进行划分的标准是信息增益（Gain），信息增益是指划分前信息熵和划分后每个子集（按权重）信息熵之和的差值。ID3选择信息增益最大的属性作为划分属性。
简单介绍一下信息熵的概念：
$Entropy(S)=\sum^{|S|}_{i=1} -p_ilog_2p_i$
S为样本集合，在信息熵的计算中，一般会默认 $log_20=0$

假设有一个属性A将S分为n个子集，我们记为 $S_1、S_2...S_n。|S_i|代表S_i内的样本数$
那么
$Gain(S,A)=Entropy(S)-\sum_{i=1}^n\frac{|S_i|}{|S|}Entropy(S_i)$

最低0.47元/天解锁文章

不安的前方

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。