思考:
1.XGB与GBDT、随机森林等模型相比,有什么优缺点?
答:XGB的基分类器可以是cart树也可以是线性分类器,gbdt为cart树。XGB加入了正则化,且优化时是对损失函数的二阶导,gbdt为一阶导。xgb使用了shrinkage,每次学习完,在叶节点上乘以该系数,用以削弱每棵树的影响,来给下面的树留出更大的学习空间。xgb可以使用并行处理
2.XGB为什么可以并行训练?
答:上述图二
3.XGB用二阶泰勒展开的优势在哪?
答:准确性高,可扩展性强
4.XGB为了防止过拟合,进行了哪些设计?
答:加入了正则化系数,Shrinkage
5.XGB如何处理缺失值?
答:在分裂的时候不考虑确实值,缺失值会被放到左子树和右子树都去计算。如果在预测时有缺失值,会被默认加到右子树!