1.XGBoost简介
XGBoost是一种基于GBDT优化的工程化实现,是由n个基模型组成的一个加法模型,它的基本类器可以是树模型,也可以是线性分类器,本文以树模型进行推导。
1.1XGBoost的目标函数
直接上公式:
XGBoost的目标函数由模型的损失函数和抑制模型复杂度的正则项组成,其中模型的损失函数由真实值(y)和预测值进行表示,n表示样本的数量,对于预测值,我们可以用如下的公式进行表示:
模型复杂度是将全部t棵树的复杂度进行求和,训练中当前模型的复杂度如下表示:
该公式表示为当前模型的复杂度由第t棵树和之前t-1棵树复杂度的和,对于第t棵树来说,之前t-1棵树的复杂度是已知的,故使用constant常数来表示。
1.2泰勒公式展开
泰勒公式,是一个用函数在某点的信息描述其附近取值的公式。如果函数满足一定的条件,泰勒公式可以用函数在某一点的各阶导数值做系数构建一个多项式来近似表达这个函数。