诚之和:Python机器学习算法之决策树算法的实现与优缺点

最新推荐文章于 2024-07-09 11:04:02 发布

weixin_45378258

最新推荐文章于 2024-07-09 11:04:02 发布

阅读量203

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45378258/article/details/119731702

版权

本文介绍了决策树算法的基本概念、种类，包括ID3、C4.5、C5.0和CART算法，并通过示例阐述了算法的构建过程和实现步骤。讨论了算法的熵、信息增益等相关概念，分析了决策树的优缺点，如处理小规模数据集的效果好，但对连续变量和大量数据处理不佳。最后探讨了算法优化方法，如使用Bagging和Boosting技术。

摘要由CSDN通过智能技术生成

在机器学习算法中，决策树算法是一种经常使用的预测算法。今天我们通过介绍决策树算法的实现和决策树算法的优缺点，来了解一下决策树算法。

1.算法概述

决策树算法是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法。

分类算法是利用训练样本集获得分类函数即分类模型(分类器)，从而实现将数据集中的样本划分到各个类中。分类模型通过学习训练样本中属性集与类别之间的潜在关系，并以此为依据对新样本属于哪一类进行预测。

决策树算法

决策树算法是直观运用概率分析的一种图解法，是一种十分常用的分类方法，属于有监督学习。

决策树是一种树形结构，其中每个内部结点表示在一个属性上的测试，每个分支代表一个测试输出，每个叶子结点代表一种类别。

决策树学习是以实例为基础的归纳学习，它采用自顶向下的递归方法，其基本思想是以信息熵为度量构造一颗熵值下降最快的树，到叶子结点处的熵值为零，此时每个叶子节点中的实例都属于同一类。

决策树学习算法的最大优点是，它可以自学习，在学习的过程中不需要使用者了解过多的背景知识，只需要对训练实例进行较好的标注，就能够进行学习。

2.算法种类

ID3算法

ID3算法中根据信息论的信息增益评估和选择特征。每次选择信息增益最大的候选特征，作为判断模块。
信息增益与属性的值域大小成正比。属性取值种类越多，越有可能成为分裂属性。
ID3也不能处理连续分布的数据。

C4.5算法

C4.5算法使用信息增益率代替信息增益，进行特征选择，克服了信息增益选择特征时偏向于特征值个数较多的不足。
C4.5算法具体算法步骤与ID3类似。
C4.5能够完成对连续属性的离散化处理，能够对不完整数据进行处理。

C5.0算法

C5.0算法是Quinlan在C4.5算法的基础上提出的商用改进版本，目的是对含有大量数据的数据集进行分析。
C5.0算法与C4.5算法相比有以下优势：
- 决策树构建时间要比C4.5算法快上数倍，同时生成的决策树规模也更小，拥有更少的叶子结点数
- 使用了提升法(boosting)，组合多个决策树来做出分类，使准确率大大提高
- 提供可选项由使用者视情况决定，例如是否考虑样本的权重、样本错误分类成本等

CART算法

最低0.47元/天解锁文章

weixin_45378258

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

weixin_45378258 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。