20210414_24期_集成学习(中)_Task08_bagging的原理和案例分析

八、bagging的原理和案例分析

在这里插入图片描述


来源

Datewhle24期__集成学习(中) :
https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning
作者:李祖贤、薛传雨、赵可、杨毅远、陈琰钰

论坛地址:
http://datawhale.club/t/topic/1574


8.1 Bagging

8.1.1 Bagging概念原理

  • 首先一张靶图回顾下方差(Variance)和偏差(Bias):
    在这里插入图片描述
    BiasVariance 分别代表两个概念。

  • Bagging是一种降低方差的技术

  • BaggingBootstrap aggregating的缩写。中文意思是自助聚合。而Bootstrap本身是一种有放回的抽样方法(可能抽到重复的样本)

  • Bagging是一种并行式的集成学习方法,即基学习器的训练之间没有前后顺序可以同时进行,Bagging使用**“有放回”采样的方式选取训练集**,对于包含m个样本的训练集,进行m次有放回的随机采样操作,从而得到m个样本的采样集,这样训练集中有接近36.8% [1] 的样本没有被采到。按照相同的方式重复进行,我们就可以采集到T个包含m个样本的数据集,从而训练出T个基学习器,最终对这T个基学习器的输出进行结合。
    lim ⁡ m ↦ ∞ ( 1 − 1 m ) m ↦ 1 e ≈ 0.368 \lim _{m \mapsto \infty}\left(1-\frac{1}{m}\right)^{m} \mapsto \frac{1}{e} \approx 0.368 mlim(1m1)me10.368… [1]

9.1.2 Bagging流程

Bagging算法的流程:
在这里插入图片描述

  • 另一形式:
    在这里插入图片描述
  1. 从原始样本集中有放回随机采样。共进行k轮抽取,得到k个训练集。(bootstrap的过程,由于是有放回抽样,所以k个训练集之间相互独立)
  2. 每次使用一份训练集训练一个模型,k 个训练集共得到 k 个基模型。(注:这里并没有具体的分类算法或回归方法,我们可以根据具体问题采用不同的分类或回归方法,如决策树、感知器等)
  3. 利用这k个基模型对测试集进行预测,将k个预测结果进行聚合。(aggregating的过程)
    1. 分类问题将上步得到的k个模型采用投票的方式得到分类结果
    2. 回归问题计算上述模型的均值作为最后的结果。(所有模型的重要性相同)

9.1.2 Bagging算法特点:

1、可并行的集成方法。每个基模型可以分别、独立、互不影响地生成。

2、主要降低 Variance,对 Bias 无明显作用。因此,适用于 High Variance & Low Bias 的模型。

  • 偏差角度:Bagging后的偏差与单个模型相近。
    由于 B i a s = 1 k ∑ i = 1 k b i a s i Bias=\frac{1}{k} \sum_{i=1}^{k}bias_{i} Bias=k1i=1
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值