DataWhale集成学习Task06 Boosting
bagging与booting
bagging基于boostrap法获得多个不同的数据集,利用投票法对基模型在不同数据集中拟合得到的结果进行集成,通过降低方差来降低泛化误差。 boosting利用加法模型对原始数据集:一类是不断拟合新模型,并依据上一次拟合的loss更新样本权重,根据cost更新模型权重;另一类是不断用新的基模型拟合上一个模型的残差。通过降低偏差来降低泛化误差
GBDT
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。
GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。
GBDT的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。