B站:啥都会一点的研究生
公众号试读:啥都会一点的研究生
目录
- 说说集成学习方法有哪些?
- 说说Boosting算法?
- 说说Bagging算法?
- 介绍下AdaBoost、GBDT、XGboost、LightGBM、RF算法?
- 说说Adaboost的优缺点?
- 说说LightGBM与XGBoost的区别?
- 说说XGBoost、GBDT的区别?
- 说说XGBoost的block结构?
- 说说随机森林与GBDT区别?
- 说说GBDT是否适合于处理大规模的ID特征?
- 说说GBDT算法步骤?
- 说说GBDT为什么使用决策树作为基学习器?
- 说说GBDT的G梯度的向量长度为多少?
- 说说LightGBM的直方图排序后会比XGBoost的效果差吗?
- 说说XGBoost正则化项和什么有关?
- 说说XGBoost缺失值处理方法?
- 说说为什么XGBoost要二阶展开?
- 说说XGBoost如果损失函数没有二阶导怎么处理?
- 说说随机森林是什么随机?
- 说说Bootstrap?
说说集成学习方法有哪些?
Bagging是 bootstrap aggregation的缩写。Bagging对于数据集进行bootstrap取样,每个数据点有同等几率被采样,然后创建n个模型,每个模型进行m个数据采样,最后进行投票(voting)得出最后结果。Bagging的典型应用是随机森林
Boosting创建一系列预测器,或者说是学习器。前面的学习器用简单的模型去适配数据,然后分析错误。同时给予错误预测的数据更高权重,然后用后面的学习器去修复。Boosting通过把一些弱学习器串起来,组成一个强学习器。Boosting的典型应用是Adaboost、提升树(Boosting Tree)、GBDT。
说说Boosting算法?
Boosting算法是集成学习算法的一种,目标:将弱学习器“提升”为强学习器。个体学习器之间存在强依赖关系,必须串行生成。
大部分Boosting算法都是根据前一个学习器的训练效果对样本点的权重进行调整,提高前一轮中学习误差率高的训练样本点的权重,使