TASK11 XGBoost

最新推荐文章于 2021-11-03 19:45:35 发布

Amihua Lau

最新推荐文章于 2021-11-03 19:45:35 发布

阅读量162

点赞数

分类专栏：机器学习文章标签：算法 python 机器学习

本文链接：https://blog.csdn.net/weixin_43913783/article/details/116177264

版权

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

本文深入探讨了XGBoost的原理，包括目标函数构建、迭代训练过程以及损失函数的泰勒展开。同时介绍了LightGBM作为XGBoost的优化版本，其在效率和内存使用上的改进，以及对缺失值和类别特征的处理。LightGBM在保持高精度的同时，提供更快的训练速度和更低的资源消耗。

摘要由CSDN通过智能技术生成

XGBoost原理及其实战

XGBoost的思想

假设我们的数据集是 $\mathcal{D}=\left\{\left(\mathbf{x}_{i}, y_{i}\right)\right\}\left(|\mathcal{D}|=n, \mathbf{x}_{i} \in \mathbb{R}^{m}, y_{i} \in \mathbb{R}\right)$

STEP1：构造目标函数

假设有K棵树，则第i个样本的输出为 $\hat{y}_{i}=\phi\left(\mathrm{x}_{i}\right)=\sum_{k=1}^{K} f_{k}\left(\mathrm{x}_{i}\right), \quad f_{k} \in \mathcal{F}$
其中， $\mathcal{F}=\left\{f(\mathbf{x})=w_{q(\mathbf{x})}\right\}\left(q: \mathbb{R}^{m} \rightarrow T, w \in \mathbb{R}^{T}\right)$

因此，目标函数的构建为：
$\mathcal{L}(\phi)=\sum_{i} l\left(\hat{y}_{i}, y_{i}\right)+\sum_{k} \Omega\left(f_{k}\right)$

其中， $\sum_{i} l\left(\hat{y}_{i}, y_{i}\right)$ 为loss function， $\sum_{k} \Omega\left(f_{k}\right)$ 为正则化项。

STEP2: 迭代训练

我们给定初始解为 $x_i$ ， $\hat{y}_i^{(0)} = 0$

则可以构造迭代序列为
$\hat{y}_i^{(K)} = \hat{y}_i^{(K-1)} + f_K(x_i)$
其中，$ \hat{y}_i^{(K-1)} $ 为前K-1棵树的预测结果，$ f_K(x_i)$ 为第K棵树的预测结果。

将迭代序列代进目标函数得到
$\mathcal{L}^{(K)}=\sum_{i=1}^{n} l\left( \hat{y}_{i}^{(K-1)}+f_{K}\left(\mathrm{x}_{i}\right) ,y_{i} \right)+\sum_{k} \Omega\left(f_{k}\right)$

注：一般的loss fuction 没有规定必须满足对称性，原教案这个地方的顺序要注意一下

同理，正则化项也可以写成迭代方程的形式
$\sum_{k} \Omega\left(f_{k}\right) = \sum_{k=1} ^{K-1}\Omega\left(f_{k}\right)+\Omega\left(f_{K}\right)$
即第 $K$ 棵树的复杂度是由前面的 $K - 1$ 棵树累加再加上当前的复杂度得到的。

在模型构建到第K棵树的时候已经固定，无法改变，因此是一个已知的常数，可以在最优化的时候省去，故：
$\mathcal{L}^{(K)}=\sum_{i=1}^{n} l\left( \hat{y}_{i}^{(K-1)}+f_{K}\left(\mathrm{x}_{i}\right) ,y_{i} \right)+\Omega\left(f_{K}\right)$

STEP3: 利用 $T a y l o r$ 展开近似loss function

我们对loss function对第 $i$ 个样本进行二阶泰勒展开，可以得到
$l\left(y_{i}, \hat{y}_{i}^{(K-1)}+f_{K}\left(\mathrm{x}_{i}\right)\right)$
因为本质上loss function是个复合函数，所以一阶导数为
$(\partial_{\hat{y}(K-1)} l\left(y_{i}, \hat{y}^{(t-1)}\right)) f_{K}\left(\mathrm{x}_{i}\right)$
本来应该有两项，但第一项 $y_i$ 为标量，故导数为0.

二阶导数为
$=\frac{\partial^{2}l\left(y_{i}, \hat{y}^{(K-1)}\right)}{\partial {(\hat{y}^{(K-1)}})^2} f_{K}^{2} \left(\mathrm{x}_{i}\right)$

所以，
$\mathcal{L}^{(K)} \simeq \sum_{i=1}^{n}\left[l\left(y_{i}, \hat{y}^{(K-1)}\right)+g_{i} f_{K}\left(\mathrm{x}_{i}\right)+\frac{1}{2} h_{i} f_{K}^{2}\left(\mathrm{x}_{i}\right)\right]+\Omega\left(f_{K}\right)$

由于 $\sum_{i=1}^{n}l\left(y_{i}, \hat{y}^{(K-1)}\right)$ 在模型构建到第K棵树的时候已经固定，无法改变，因此是一个已知的常数，可以在最优化的时候省去，故：
$\tilde{\mathcal{L}}^{(K)}=\sum_{i=1}^{n}\left[g_{i} f_{K}\left(\mathbf{x}_{i}\right)+\frac{1}{2} h_{i} f_{K}^{2}\left(\mathbf{x}_{i}\right)\right]+\Omega\left(f_{K}\right)$

STEP4:树的定义

由于模型复杂度 $\Omega\left(f_{K}\right)$
由叶子节点的个数以及节点函数值来构建，则：
$\Omega\left(f_{K}\right) = \gamma T+\frac{1}{2} \lambda \sum_{j=1}^{T} w_{j}^{2}$
即这里采用 $L_2$ 正则化， $T$ 代表叶节点个数， $w_j$ 代表叶节点的预测值。第 $K$ 棵树的复杂度由叶节点个数和叶节点的预测值来衡量。叶节点越多树越复杂。

这里补充一下正则化的理论，参考文献为[机器学习中正则化项L1和L2的直观理解:https://blog.csdn.net/jinping_shi/article/details/52433975]

代入目标函数得到：
$\begin{aligned} \tilde{\mathcal{L}}^{(K)} &=\sum_{i=1}^{n}\left[g_{i} f_{K}\left(\mathrm{x}_{i}\right)+\frac{1}{2} h_{i} f_{K}^{2}\left(\mathrm{x}_{i}\right)\right]+\gamma T+\frac{1}{2} \lambda \sum_{j=1}^{T} w_{j}^{2} \\ &=\sum_{j=1}^{T}\left[\left(\sum_{i \in I_{j}} g_{i}\right) w_{j}+\frac{1}{2}\left(\sum_{i \in I_{j}} h_{i}+\lambda\right) w_{j}^{2}\right]+\gamma T \end{aligned}$
由于我们的目标就是最小化目标函数，现在的目标函数化简为一个关于w的二次函数： $\tilde{\mathcal{L}}^{(K)}=\sum_{j=1}^{T}\left[\left(\sum_{i \in I_{j}} g_{i}\right) w_{j}+\frac{1}{2}\left(\sum_{i \in I_{j}} h_{i}+\lambda\right) w_{j}^{2}\right]+\gamma T$ ，根据二次函数求极值的公式： $y=ax^2 bx c$ 求极值，对称轴在 $x=-\frac{b}{2 a}$ ，极值为 $y=\frac{4 a c-b^{2}}{4 a}$ ，因此：
$w_{j}^{*}=-\frac{\sum_{i \in I_{j}} g_{i}}{\sum_{i \in I_{j}} h_{i}+\lambda}$
以及
$\tilde{\mathcal{L}}^{(K)}(q)=-\frac{1}{2} \sum_{j=1}^{T} \frac{\left(\sum_{i \in I_{j}} g_{i}\right)^{2}}{\sum_{i \in I_{j}} h_{i}+\lambda}+\gamma T$

STEP5:使用目标函数的变化来作为分裂节点的标准

分割节点的标准为 $max\{\tilde{\mathcal{L}}^{(old)} - \tilde{\mathcal{L}}^{(new)} \}$ ，即：
$\mathcal{L}_{\text {split }}=\frac{1}{2}\left[\frac{\left(\sum_{i \in I_{L}} g_{i}\right)^{2}}{\sum_{i \in I_{L}} h_{i}+\lambda}+\frac{\left(\sum_{i \in I_{R}} g_{i}\right)^{2}}{\sum_{i \in I_{R}} h_{i}+\lambda}-\frac{\left(\sum_{i \in I} g_{i}\right)^{2}}{\sum_{i \in I} h_{i}+\lambda}\right]-\gamma$