第八篇：机器学习基础：集成学习算法：随机森林、Adaboost、 XGBoost

最新推荐文章于 2022-12-04 20:16:02 发布

太阳不热

最新推荐文章于 2022-12-04 20:16:02 发布

阅读量1.2k

点赞数

分类专栏：机器学习算法入门及应用实战文章标签：机器学习大数据集成学习 xgboost

本文链接：https://blog.csdn.net/weixin_43595476/article/details/106420097

版权

本文介绍了集成学习的概念，包括偏差和方差、机器学习的两大任务。深入探讨了自助聚合bagging、提升法boosting、堆叠法stacking三种策略，以及随机森林和Adaboost的剪枝技巧。最后，讨论了XGBoost的特点和模型参数。

摘要由CSDN通过智能技术生成

1 集成学习

1.1。何为集成方法？

  集成学习是一种机器学习范式。在集成学习中，我们会训练多个模型（通常称为「弱学习器」）解决相同的问题，并将它们结合起来以获得更好的结果。
  最重要的假设是：当弱模型被正确组合时，我们可以得到更精确和/或更鲁棒的模型。
  集成方法的思想是通过将这些弱学习器的偏置和/或方差结合起来，从而创建一个「强学习器」（或「集成模型」），从而获得更好的性能。

1.2。组合弱学习器：很重要的一点是：我们对弱学习器的选择应该和我们聚合这些模型的方式相一致。

  如果我们选择具有低偏置高方差的基础模型，我们应该使用一种倾向于减小方差的聚合方法；
  而如果我们选择具有低方差高偏置的基础模型，我们应该使用一种倾向于减小偏置的聚合方法。

1.3 偏差和方差

广义的偏差（bias）描述的是预测值和真实值之间的差异，方差（variance）描述距的是预测值作为随机变量的离散程度
    模型的偏差和方差：bagging和stacking中的基模型为强模型（偏差低方差高），boosting中的基模型为弱模型。

1.4 什么是集成学习

- 超级个体 -> 比如9次多项式函数 -> 能力过强，容易过拟合 -> 
            * 解决过拟合问题：互相扼制变壮 bagging采样学习集成。
            * 对数据进行采样训练；所有学习器平权投票；Bagging的学习是并行的，每个学习器没有依赖关系；
            * Bagging主要用于提高泛化性能（解决过拟合，也可以说降低方差）
            * 例：
                **随机森林算法：随机森林 = Bagging + 决策树
                
- 弱者联盟 -> 比如组合一堆1次函数 -> 能力变强，但不容易过拟合 -> 
            * 解决欠拟合问题: 弱弱组合变强 boosting逐步增强学习。
            * 根据前一轮学习结果调整数据的重要性；对学习器进行加权投票；Boosting学习是串行，学习有先后顺序。
            * Boosting主要用于提高训练精度 （解决欠拟合，也可以说降低偏差）
            * 例：
                ** GBDT 梯度提升决策树(GBDT Gradient Boosting Decision Tree) ：GBDT = 梯度下降 + Boosting + 决策树
                ** XGBoost= 二阶泰勒展开 + boosting + 决策树 + 正则化

1.5 机器学习的两个核心任务

   - 任务一：如何优化训练数据 —> 主要用于解决欠拟合问题
   - 任务二：如何提升泛化性能 —> 主要用于解决过拟合问题

2 自助聚合bagging、提升法boosting 、堆叠法stacking

最低0.47元/天解锁文章

太阳不热

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录