集成学习方法Boosting和Bagging

集成学习

一、什么是集成学习(ensemble learning)?
集成学习就是通过构建多个基分类器并将多个基分类器通过一个的规则结合起来共同完成学习任务的学习方法。
目前集成学习方法包含两类:

  1. 个体学习器间存在依赖关系、必须串行生成的序列化方法。(代表:Boosting)
  2. 个体学习器间不存在强依赖关系、可同时生成的并行化方法。(代表:Bagging)

Boosting

定义: Boosting先初始从训练集中训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续得到更多的关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直到基学习器数目达到预先设定的值T,最终将T个基学习器进行加权结合。
从偏差-方差的角度,Boosting更关注降低偏差偏差指的是算法期望预测与真实预测之间的偏差程度,反应了模型本身的泛化能力。

Bagging

  1. 自助采样法(bootstrap sampling)
    自助采样法给定包含m个样本的数据集,从中随机取出一个样本放入采样集中,再把样本放回初始数据集(又放回采样),使得下次采样时该样本仍有可能被选中,这样,经过m次随机采样操作,得到含有m个样本的采样集,初始训练集中有的样本出现多次,有的未出现。初始训练集中约63.2%的样本出现在采样集中。
    从偏差-方差的角度,Bagging更关注降低方差方差度量了同等大小的训练集变动导致学习性能的变化,刻画了数据扰动所导致的影响
  2. Bagging
    Bagging的样本采样基于自助采样法(bootstrap sampling)。采样出T个含有m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合。

集成学习的结合策略

1.平均法
简单平均法:所有数值型输出值的和除以总个数
加权平均法:每个个体学习器乘以其权重然后再求加和。
2.投票法
绝对多数投票法:标记的票数超过一半就预测为该标记,否则拒绝预测。
相对多数投票法:即预测为得票最多的标记,若同时有多个标记获得最高票,从中随机选取一个。
加权投票法:每个基学习器乘以一个权重后,选择预测为得票最多的标记。
3.学习法
通过一个学习器来进行结合。典型代表:Stacking.
Stacking先从初始数据集训练出初级学习器,然后“生成”一个新的数据集用于训练次级学习器。
Stacking的思想:第j个基模型对第i个训练样本的预测值将作为下一层新的训练集中第i个样本的第j个feature,然后基于新的训练集继续训练;第j个基模型对测试集中第i个样本预测结果的平均值,作为下一层测试集第i个样本第j个feature。
Stacking详细算法流程可参考:
https://blog.csdn.net/wstcjf/article/details/77989963
https://zhuanlan.zhihu.com/p/26890738

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值