第八篇:机器学习基础:集成学习算法:随机森林、Adaboost、 XGBoost

本文介绍了集成学习的概念,包括偏差和方差、机器学习的两大任务。深入探讨了自助聚合bagging、提升法boosting、堆叠法stacking三种策略,以及随机森林和Adaboost的剪枝技巧。最后,讨论了XGBoost的特点和模型参数。
摘要由CSDN通过智能技术生成

1 集成学习

1.1。何为集成方法?

  集成学习是一种机器学习范式。在集成学习中,我们会训练多个模型(通常称为「弱学习器」)解决相同的问题,并将它们结合起来以获得更好的结果。
  最重要的假设是:当弱模型被正确组合时,我们可以得到更精确和/或更鲁棒的模型。
  集成方法的思想是通过将这些弱学习器的偏置和/或方差结合起来,从而创建一个「强学习器」(或「集成模型」),从而获得更好的性能。

1.2。组合弱学习器:很重要的一点是:我们对弱学习器的选择应该和我们聚合这些模型的方式相一致。

  如果我们选择具有低偏置高方差的基础模型,我们应该使用一种倾向于减小方差的聚合方法;
  而如果我们选择具有低方差高偏置的基础模型,我们应该使用一种倾向于减小偏置的聚合方法。

1.3 偏差和方差

广义的偏差(bias)描述的是预测值和真实值之间的差异,方差(variance)描述距的是预测值作为随机变量的离散程度
    模型的偏差和方差:bagging和stacking中的基模型为强模型(偏差低方差高),boosting中的基模型为弱模型。

1.4 什么是集成学习

- 超级个体 -> 比如9次多项式函数 -> 能力过强,容易过拟合 -> 
            * 解决过拟合问题:互相扼制变壮 bagging采样学习集成。
            * 对数据进行采样训练;所有学习器平权投票;Bagging的学习是并行的,每个学习器没有依赖关系;
            * Bagging主要用于提高泛化性能(解决过拟合,也可以说降低方差)
            * 例:
                **随机森林算法:随机森林 = Bagging + 决策树
                
- 弱者联盟 -> 比如组合一堆1次函数 -> 能力变强,但不容易过拟合 -> 
            * 解决欠拟合问题: 弱弱组合变强 boosting逐步增强学习。
            * 根据前一轮学习结果调整数据的重要性;对学习器进行加权投票;Boosting学习是串行,学习有先后顺序。
            * Boosting主要用于提高训练精度 (解决欠拟合,也可以说降低偏差)
            * 例:
                ** GBDT 梯度提升决策树(GBDT Gradient Boosting Decision Tree) :GBDT = 梯度下降 + Boosting + 决策树
                ** XGBoost= 二阶泰勒展开 + boosting + 决策树 + 正则化

1.5 机器学习的两个核心任务

   - 任务一:如何优化训练数据 —> 主要用于解决欠拟合问题
   - 任务二:如何提升泛化性能 —> 主要用于解决过拟合问题

2 自助聚合bagging、提升法boosting 、堆叠法stacking

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值