1 集成学习
1.1。何为集成方法?
集成学习是一种机器学习范式。在集成学习中,我们会训练多个模型(通常称为「弱学习器」)解决相同的问题,并将它们结合起来以获得更好的结果。
最重要的假设是:当弱模型被正确组合时,我们可以得到更精确和/或更鲁棒的模型。
集成方法的思想是通过将这些弱学习器的偏置和/或方差结合起来,从而创建一个「强学习器」(或「集成模型」),从而获得更好的性能。
1.2。组合弱学习器:很重要的一点是:我们对弱学习器的选择应该和我们聚合这些模型的方式相一致。
如果我们选择具有低偏置高方差的基础模型,我们应该使用一种倾向于减小方差的聚合方法;
而如果我们选择具有低方差高偏置的基础模型,我们应该使用一种倾向于减小偏置的聚合方法。
1.3 偏差和方差
广义的偏差(bias)描述的是预测值和真实值之间的差异,方差(variance)描述距的是预测值作为随机变量的离散程度
模型的偏差和方差:bagging和stacking中的基模型为强模型(偏差低方差高),boosting中的基模型为弱模型。
1.4 什么是集成学习
- 超级个体 -> 比如9次多项式函数 -> 能力过强,容易过拟合 ->
* 解决过拟合问题:互相扼制变壮 bagging采样学习集成。
* 对数据进行采样训练;所有学习器平权投票;Bagging的学习是并行的,每个学习器没有依赖关系;
* Bagging主要用于提高泛化性能(解决过拟合,也可以说降低方差)
* 例:
**随机森林算法:随机森林 = Bagging + 决策树
- 弱者联盟 -> 比如组合一堆1次函数 -> 能力变强,但不容易过拟合 ->
* 解决欠拟合问题: 弱弱组合变强 boosting逐步增强学习。
* 根据前一轮学习结果调整数据的重要性;对学习器进行加权投票;Boosting学习是串行,学习有先后顺序。
* Boosting主要用于提高训练精度 (解决欠拟合,也可以说降低偏差)
* 例:
** GBDT 梯度提升决策树(GBDT Gradient Boosting Decision Tree) :GBDT = 梯度下降 + Boosting + 决策树
** XGBoost= 二阶泰勒展开 + boosting + 决策树 + 正则化
1.5 机器学习的两个核心任务
- 任务一:如何优化训练数据 —> 主要用于解决欠拟合问题
- 任务二:如何提升泛化性能 —> 主要用于解决过拟合问题
2 自助聚合bagging、提升法boosting 、堆叠法stacking