一、Boosting方法的基本思路
什么是"强可学习"和"弱可学习"呢?在概率近似正确PAC学习的框架下:
- 弱学习: 识别错误率小于1/2(即准确率仅比随机猜测略高的学习算法)
- 强学习: 识别准确率很高并能在多项式时间内完成的学习算法
在PAC 学习的框架下,强可学习和弱可学习是 等价的,故可通过反复学习,使得一系列弱分类器达到强分类器的效果。
因次对于Boosting方法来说,有两个问题需要给出答案:
问题一: 每一轮学习应该如何改变数据的概率分布;
问题二: 如何将各个弱分类器组合起来。
关于这两个问题,不同的Boosting算法会有不同的答案,我们接下来介绍一种最经典的Boosting算法----Adaboost
二、Adaboost算法
已整理到另外一篇文章:Adaboost算法
三、前向分步算法和梯度提升决策树(GBDT)
已整理到另外一篇文章:前向分步算法&梯度提升决策树(GBDT)
四、XGBoost
已整理到另外一篇文章:XGBoost算法
五、LightGBM算法
LightGBM与XGBoost算法基本无异,只是对其进行了优化,此处暂不补充,后续学习需要用到再做整理。
参考:DataWhale/ensemble-learning