Classifier: Extra-Trees 与 Random Forest

本文探讨了决策树的基础知识,包括特征选择和CART算法。重点对比了Random Forest和Extra Trees两种集成学习方法,强调了它们在样本选择、节点划分策略及计算效率上的差异。Random Forest采用有放回抽样,Extra Trees使用全部样本且在节点划分时更加随机,以降低过拟合风险。在实际应用中,sklearn库提供了对应的分类器实现。
摘要由CSDN通过智能技术生成

pre-knowledge:
关于决策树(可做分类/ 回归)的概念可以参考李航《统计学习方法》(第二版)第五章,其介绍了特征选择,树的生成,树的剪枝等方法。其中,特征选择涉及熵、信息增益(越大越好)、信息增益比(越大越好)、以及基尼系数(越小越好)等概念。决策树生成算法介绍了ID3、C4.5,最后系统介绍了 CART 算法中的生成与剪枝过程。

概念:
Random Forest 使用 CART 算法作为弱学习器,并在决策树的建立上做了改进。普通的决策树在节点上所有的n个样本特征中选择一个最优的特征来做决策树的左右子树划分,但是 Random Forest 从随机选择的一部分特征中选择一个最优的特征来进行决策树左右子树的划分。Random Forest 的每一棵决策树之间是没有关联的。

Extra Trees 分类器是一种集成学习方法,通过一些去相关化的决策树来进行分类。从概念上来看,其与 Random Forest 分类器十分类似。
对于 Extra Trees Forest,每棵决策树由所有的training sample 构成。在每个 test node 上,每棵 tree 从 k 个随机抽样的 features 中选取最优的 feature 从而对数据进行划分。Extra-Trees 有时也称为 Extremely randomized trees,极度随机树。相比于随机森林,Extra Trees 的极度随机表现在对决策树节点的划分上,其直接使用一个随机的特征以及随机特征上的随机阈值进行划分。

使用:
sklearn 封装,可以从 ensemble(集成学习模块࿰

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值