集成学习Task8--Bagging的原理和案例分析

集成学习Task8--Bagging的原理和案例分析

根据基分类器的生成方式,集成学习有两种范式:

  1. 串行生成基分类器的“串行集成方法”,代表为AdaBoost

      该方法的基本动机是利用基学习器之间的相关性,按残差降低(residual-decreasing)方式提升集成的预测性能
  2. 并行生成基分类器的“并行集成方法”,代表为Bagging

      该方法的基本动机是利用基学习器之间的独立性,结合相互独立的基分类器以减小误差,并行集成还有一个好处是可以使用多核、多机的方式很容易加快训练速度

bagging的原理分析

bootstrap的概念

Bagging的核心在于自助采样(bootstrap)这一概念,即有放回的从数据集中进行采样,也就是说,同样的一个样本可能被多次进行采样。

接下来举一个自助采样的小例子

我们希望估计全国所有人口年龄的平均值

  1. 在全国所有人口中随机抽取不同的集合(这些集合可能存在交集)
  2. 计算每个集合的平均值,
  3. 然后将所有平均值的均值作为估计值。

Bagging的基本流程

首先我们随机取出一个样本放入采样集合中,再把这个样本放回初始数据集,重复K次采样,
最终我们可以获得一个大小为K的样本集合。同样的方法, 我们可以采样出T个含K个样本的采样集合,然后基于每个采样集合训练出一个基学习器,再将这些基学习器进行结合,这就是Bagging的基本流程。

  • 回归问题的预测是通过预测取平均值来进行的。
  • 分类问题的预测是通过对预测取多数票预测来进行的。

     Bagging方法之所以有效,是因为每个模型都是在略微不同的训练数据集上拟合完成的,这又使得每个基模
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值