Classifier: Extra-Trees 与 Random Forest

最新推荐文章于 2025-01-22 17:51:48 发布

Richael_zz

最新推荐文章于 2025-01-22 17:51:48 发布

阅读量1k

点赞数 1

文章标签：决策树机器学习 sklearn

本文链接：https://blog.csdn.net/weixin_43743533/article/details/125179545

版权

本文探讨了决策树的基础知识，包括特征选择和CART算法。重点对比了Random Forest和Extra Trees两种集成学习方法，强调了它们在样本选择、节点划分策略及计算效率上的差异。Random Forest采用有放回抽样，Extra Trees使用全部样本且在节点划分时更加随机，以降低过拟合风险。在实际应用中，sklearn库提供了对应的分类器实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

pre-knowledge:
关于决策树（可做分类/ 回归）的概念可以参考李航《统计学习方法》（第二版）第五章，其介绍了特征选择，树的生成，树的剪枝等方法。其中，特征选择涉及熵、信息增益（越大越好）、信息增益比（越大越好）、以及基尼系数（越小越好）等概念。决策树生成算法介绍了ID3、C4.5，最后系统介绍了 CART 算法中的生成与剪枝过程。

概念：
Random Forest 使用 CART 算法作为弱学习器，并在决策树的建立上做了改进。普通的决策树在节点上所有的n个样本特征中选择一个最优的特征来做决策树的左右子树划分，但是 Random Forest 从随机选择的一部分特征中选择一个最优的特征来进行决策树左右子树的划分。Random Forest 的每一棵决策树之间是没有关联的。

Extra Trees 分类器是一种集成学习方法，通过一些去相关化的决策树来进行分类。从概念上来看，其与 Random Forest 分类器十分类似。
对于 Extra Trees Forest，每棵决策树由所有的training sample 构成。在每个 test node 上，每棵 tree 从 k 个随机抽样的 features 中选取最优的 feature 从而对数据进行划分。Extra-Trees 有时也称为 Extremely randomized trees，极度随机树。相比于随机森林，Extra Trees 的极度随机表现在对决策树节点的划分上，其直接使用一个随机的特征以及随机特征上的随机阈值进行划分。

使用：
sklearn 封装，可以从 ensemble（集成学习模块࿰