个人总结:从 决策树 到 随机森林

本文从决策树出发,深入探讨了随机森林的原理,包括Bagging、特征重要性、模型调参及其推广如Extra Trees和Totally Random Trees Embedding。随机森林因训练并行化、高维度特征处理能力、模型泛化能力和特征重要性评估等优点而备受青睐,但也存在过拟合和某些特征影响较大的问题。
摘要由CSDN通过智能技术生成

关于决策树的一些可能需要了解的知识点,在个人总结:决策树中有所涉猎。

谈到随机森林,就需要了解bagging,而谈到bagging,就需要了解集成学习。

集成学习:构建并租个多个学习器来完成任务。获得比单一学习器更优越的性能。

两种选择:

  • 同质:比如都是决策树个体学习器,都是神经网络个体学习器。

    同质也可分为两类:

  1. 个体学习器之间存在强依赖关系,一系列个体学习器串行生成,代表算法boosting系列
  2. 不存在强依赖关系,可以并行生成,代表算法是bagging和Random Forest
  • 异质:采用支持向量机个体学习器,逻辑回归个体学习器和朴素贝叶斯个体学习器,再通过某种结合策略来确定最终的分类强学习器。

从决策树到随机森林

Bagging:

首先来谈谈Bagging:Bagging就是对训练集进行采集,生成多个子训练集,再从每个子训练集训练一个基学习器,在预测阶段将各个基学习器进行结合。

随机采样bootstrap,“随机”体现点一)就是从训练集里采集固定个数的样本,但是每采集一个样本后,都将样本放回。也就是说,之前采集到的样本在放回后有可能被继续采集到。比如说 ,对含有m个样本的训练集做m次随机采样,在每次采样过后都将样本放回训练集。这样最后生成的采样集合中,初始样本集中某些样本可能出现多次,某些可能从未出现。

如何计算不同的样本的数量的期望呢?也就是说假设从N个样本中采样K个样本,求不同样本数量的期望,求E(K)。

首先,显然有E(1) = 1,因为一个样本采样出来肯定是独一无二的。其次,设从N个样本中采样K-1个样本不同数量的样本期望为E(K-1),则第k个样本是未曾抽到的样本的概率为

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值