集成学习算法(Random Forest、adBoost、GBDT、XgBoost、lightboost)
最近快速过了一遍集成学习的相关算法,在这里做一个小总结。
集成学习:
- Bagging:并行式集成学习,注重降低方差;如Random Forest
- Boost:串行式集成学习,注重降低偏差;adboost、GBDT、XgBoost、lightboost
Random Forest算法:
- 属于Bagging集成学习,在上一篇文章中有介绍;下面介绍的都是Boost集成学习。
adboost算法:
- adboost算法的原理在于理解两个权重:1.数据权重 2.各学习器权重
- 数据权重:在前一个学习器学习时,会根据分类情况给予分类错误的样本更大的权重,在下一次学习时依据新的学习权重样本进行重新学习;
- 学习器权重:基于每一个学习器分类效果给各个分类器给予各个学习器权重,当整个分类器的错误率达到阈值时,算法停止
GDBT算法:
- GBDT = CART回归树 + boost提升树 + 梯度下降法 + shrinkage思想
- CART(classification and regression tree&#