理解xgboost与gbdt区别

最新推荐文章于 2022-05-18 16:06:42 发布

zhulinniao

最新推荐文章于 2022-05-18 16:06:42 发布

阅读量489

点赞数 1

分类专栏：机器学习文章标签：机器学习

【博客公式均自己亲自推导和撰写，请转载请注明出处，文章如有侵权、未引用出处等请及时联系whaozl@126.com 或留言评论】【很多已会但是会忘,写纯粹是为了多总结多向前看看和向后看看】

本文链接：https://blog.csdn.net/zhulinniao/article/details/103847201

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

理解xgboost与gbdt区别

Xgboost和gbdt区别
1 Xgboost的多棵树集成概念
2 Xgboost的学习策略
3 Xgboost的优化函数
Reference

Xgboost和gbdt区别

【 Xgboost用了】

泰勒公式展开即用到了二阶，普通GBDT(提升树)只用到了一阶
L1正则化和L2正则化
可使用column(feature) sampling来防止过拟合
近似寻找分裂节点算法
**

1 Xgboost的多棵树集成概念

在这里插入图片描述
tree1和tree2中，男生判断喜欢电脑游戏的概率=2+0.9=2.9
tree1和tree2中，老人判断喜欢电脑游戏的概率=-1-0.9=-1.9

2 Xgboost的学习策略

将已经学习的树固定,每次向其中添加一棵新的树，每次是训练这棵新树的结构和叶子分数
$\begin{aligned} & {\color{red}{\hat{y}_{i}^{(0)}}}=0 \\ & {\color{red}{\hat{y}_{i}^{(1)}}}={{f}_{1}}({{x}_{i}})={\color{red}{\hat{y}_{i}^{(0)}}}+{{f}_{1}}({{x}_{i}}) \\ & {\color{red}{\hat{y}_{i}^{(2)}}}={{f}_{1}}({{x}_{i}})+{{f}_{2}}({{x}_{i}})={\color{red}{\hat{y}_{i}^{(1)}}}+{{f}_{2}}({{x}_{i}}) \\ & {\color{red}{\hat{y}_{i}^{(3)}}}={{f}_{1}}({{x}_{i}})+{{f}_{2}}({{x}_{i}})+{{f}_{3}}({{x}_{i}})={\color{red}{\hat{y}_{i}^{(2)}}}+{{f}_{3}}({{x}_{i}}) \\ & {\color{red}{\hat{y}_{i}^{(4)}}}={{f}_{1}}({{x}_{i}})+{{f}_{2}}({{x}_{i}})+{{f}_{3}}({{x}_{i}})+{{f}_{4}}({{x}_{i}})={\color{red}{\hat{y}_{i}^{(3)}}}+{{f}_{4}}({{x}_{i}}) \\ & {\color{red}{\hat{y}_{i}^{(t)}}}=\sum\limits_{k=1}^{t}{{{f}_{k}}({{x}_{i}})}={\color{red}{\hat{y}_{i}^{(t-1)}}}+{{f}_{t}}({{x}_{i}}) \\ \end{aligned}$

3 Xgboost的优化函数

3.1 Xgboost原始优化函数

$\begin{aligned} ob{{j}^{(t)}} &=\sum\limits_{i=1}^{n}{l({{y}_{i}},{\color{red}{\hat{y}_{i}^{(t)}}} )}+\sum\limits_{i=1}^{t}{\Omega ({{f}_{i}})} \\ & =\sum\limits_{i=1}^{n}{l({{y}_{i}},{\color{red}{\hat{y}_{i}^{(t-1)}+{{f}_{t}}({{x}_{i}})}} )}+\Omega ({{f}_{t}})+constant \\ \end{aligned}$
其中 $\Omega ({{f}_{t}})$ 是正则化项， $t$ 是第 $t$ 棵树， $n$ 是第n个数据样本

3.2 选定MSE(均方差)作为损失函数

则原始优化函数变成如下形式(展开)：
$\begin{aligned} ob{{j}^{(t)}} & =\sum\limits_{i=1}^{n}{l({{y}_{i}},{\color{red}{\hat{y}_{i}^{(t)}}} )}+\sum\limits_{i=1}^{t}{\Omega ({{f}_{i}})} \\ & =\sum\limits_{i=1}^{n}{l({{y}_{i}},{\color{red}{\hat{y}_{i}^{(t-1)}+{{f}_{t}}({{x}_{i}})}} )}+\Omega ({{f}_{t}})+constant \\ & =\sum\limits_{i=1}^{n}{({{y}_{i}}-{\color{red}{(\hat{y}_{i}^{(t-1)}+{{f}_{t}}({{x}_{i}})})} )^{2}}+\Omega ({{f}_{t}})+constant \\ & =\sum\limits_{i=1}^{n}{({\color{red}{(\hat{y}_{i}^{(t-1)}+{{f}_{t}}({{x}_{i}})})}-{{y}_{i}} )^{2}}+\Omega ({{f}_{t}})+constant \\ & ={{\sum\limits_{i=1}^{n}{\left[ (\hat{y}_{i}^{(t-1)}-{{y}_{i}})+{{f}_{t}}({{x}_{i}}) \right]}}^{2}}+\Omega ({{f}_{t}})+constant \\ & =\sum\limits_{i=1}^{n}{\left[ 2(\hat{y}_{i}^{(t-1)}-{{y}_{i}}){{f}_{t}}({{x}_{i}})+{{f}_{t}}{{({{x}_{i}})}^{2}} \right]}+\Omega ({{f}_{t}})+constant \\ \end{aligned}$
【注意】 $(\hat{y}_{i}^{(t-1)}-{{y}_{i}})^2$ 是常数项，归并到 $c o n s t a n t$
这样函数里存在一阶残差项和平方项。

3.3 直接选定泰勒公式展开

根据 $f(x+\Delta x)\approx f(x)+{f}'(x)\Delta x+\frac{1}{2}{f}''(x)\Delta {{x}^{2}}$ ：
当 $\color{blue}x=\hat{y}_{i}^{(t-1)}=从0到t-1棵树的累加预测值$ ， $\color{blue}\Delta x={{f}_{t}}({{x}_{i}})=第t棵树的函数预测值$ 时：
即： $\color{red}x+\Delta x=\hat{y}_{i}^{(t-1)}+{{f}_{t}}({{x}_{i}})$
即：
$\begin{aligned} f(x+{\color{red}\Delta x}) & \approx f(x)+{f}'(x){\color{red}\Delta x}+\frac{1}{2}{f}''(x){\color{red}\Delta {{x}^{2}}} \\ l(\hat{y}_{i}^{(t-1)}+{\color{red}{{f}_{t}}({{x}_{i}})} ) & \approx l(\hat{y}_{i}^{(t-1)})+{{{{l}'}}}(\hat{y}_{i}^{(t-1)}){\color{red}{{f}_{t}}({{x}_{i}})}+\frac{1}{2}{{{{l}''}}}(\hat{y}_{i}^{(t-1)}){\color{red}{{f}_{t}}^{2}({{x}_{i}})} \\ & \approx f(\hat{y}_{i}^{(t-1)})+{{g}_{i}}{\color{red}{{f}_{t}}({{x}_{i}})}+\frac{1}{2}{{h}_{i}}{\color{red}{{f}_{t}}^{2}({{x}_{i}})} \\ \end{aligned}$
其中：
$\begin{aligned} & {{g}_{i}}={{{{l}'}}_{t}}(\hat{y}_{i}^{(t-1)}) \\ & {{h}_{i}}={{{{l}''}}_{t}}(\hat{y}_{i}^{(t-1)}) \\ \end{aligned}$

则
$\begin{aligned} ob{{j}^{(t)}} & =\sum\limits_{i=1}^{n}{l({{y}_{i}},{\color{red}{\hat{y}_{i}^{(t)}}} )}+\sum\limits_{i=1}^{t}{\Omega ({{f}_{i}})} \\ & =\sum\limits_{i=1}^{n}{l({{y}_{i}},{\color{red}{\hat{y}_{i}^{(t-1)}+{{f}_{t}}({{x}_{i}})}} )}+\Omega ({{f}_{t}})+constant \\ & = \sum\limits_{i=1}^{n}{\left[ l({{y}_{i}},\hat{y}_{i}^{(t-1)})+{\color{blue}{g}_{i}}{{f}_{t}}(x_i)+\frac{1}{2}{\color{blue}{h}_{i}}f_{t}^{2}({{x}_{i}}) \right]}+\Omega ({{f}_{t}})+constant \end{aligned}$
其中：
$\left\{ \begin{aligned} & {{g}_{i}}=\frac{\partial l({{y}_{i}},\hat{y}_{i}^{(t-1)})}{\partial \color{blue}\hat{y}_{i}^{(t-1)}} \\ & {{h}_{i}}=\frac{{{\partial }^{2}}l({{y}_{i}},\hat{y}_{i}^{(t-1)})}{\partial {{({\color{blue}\hat{y}_{i}^{(t-1)}})}^{2}}} \\ \end{aligned} \right.$
$\color{red}【注意】y_i是实际值，l({{y}_{i}},\hat{y}_{i}^{(t-1)})是关于\hat{y}_{i}^{(t-1)}的函数，则g_i是关于\hat{y}_{i}^{(t-1)}的一阶导数$
$\color{red}因为\hat{y}_{i}^{(t-1)}是关于样本点上的从0到t-1棵树的累加预测值是已知的$
$\color{red}将样本点代入一阶导函数可求得实际值$

3.4 第 $t$ 棵树的函数 $f_t(x)$

目标函数经过上面推导只依赖：每个样本点在优化函数上的一阶导和二阶导
如下对 $f_t$ 定义如下，树的信息量拆分为结构部分 $q$ 和叶子权重部分 $w$ :
$f_t(x)=w_q(x)$
在这里插入图片描述

3.5 树的复杂度(正则化)

$\Omega ({{f}_{t}})=\gamma T+\frac{1}{2}\lambda \sum\limits_{j=1}^{T}{w_{j}^{2}}$
【其中】 $T$ 为叶子个数， $w_j$ 为叶子的系数(权重)

3.6 用叶子系数表示优化函数

$\color{red}因为当优化第t棵树时，\hat{y}_{i}^{(t-1)}=从0到t-1棵树的累加预测值是已知的，且y_i是实际值$
$\color{red}所以\sum\limits_{i=1}^{n}{\left[ l({{y}_{i}},\hat{y}_{i}^{(t-1)}) \right]}是已知的，属于常量$ ，且
$f_t(x)=w_q(x)$ ，则
$\begin{aligned} ob{{j}^{(t)}} & =\sum\limits_{i=1}^{n}{l({{y}_{i}},{\color{red}{\hat{y}_{i}^{(t)}}} )}+\sum\limits_{i=1}^{t}{\Omega ({{f}_{i}})} \\ & =\sum\limits_{i=1}^{n}{l({{y}_{i}},{\color{red}{\hat{y}_{i}^{(t-1)}+{{f}_{t}}({{x}_{i}})}} )}+\Omega ({{f}_{t}})+constant \\ & = \sum\limits_{i=1}^{n}{\left[ l({{y}_{i}},\hat{y}_{i}^{(t-1)})+{\color{blue}{g}_{i}}{{f}_{t}}(x_i)+\frac{1}{2}{\color{blue}{h}_{i}}f_{t}^{2}({{x}_{i}}) \right]}+\Omega ({{f}_{t}})+constant \\ & = \sum\limits_{i=1}^{n}{\left[ {{g}_{i}}{{f}_{t}}(x)+\frac{1}{2}{{h}_{i}}f_{t}^{2}({{x}_{i}}) \right]}+\left[ \gamma T+\frac{1}{2}\lambda \sum\limits_{j=1}^{T}{w_{j}^{2}} \right]+\sum\limits_{i=1}^{n}{\left[ l({{y}_{i}},\hat{y}_{i}^{(t-1)}) \right]}+constant \\ & = \sum\limits_{i=1}^{n}{\left[ {{g}_{i}}{\color{blue}{w}_{q(x_i)}}+\frac{1}{2}{{h}_{i}}{\color{blue}w_{q(x_i)}^{2}} \right]}+\left[ \gamma T+\frac{1}{2}\lambda \sum\limits_{j=1}^{T}{w_{j}^{2}} \right]+constant \\ \end{aligned}$
$\color{red}因为n个样本点是落在T个不同叶子节点上，则可以等价按照不同叶子节点将所有的n个样本点进行区分$ ，即：
$\color{blue}按T将落在同一叶子节点上的样本点进行求和$ ，则：
$\begin{aligned} ob{{j}^{(t)}} & =\sum\limits_{i=1}^{n}{l({{y}_{i}},{\color{red}{\hat{y}_{i}^{(t)}}} )}+\sum\limits_{i=1}^{t}{\Omega ({{f}_{i}})} \\ & = \sum\limits_{i=1}^{n}{\left[ {{g}_{i}}{\color{blue}{w}_{q(x_i)}}+\frac{1}{2}{{h}_{i}}{\color{blue}w_{q(x_i)}^{2}} \right]}+\left[ \gamma T+\frac{1}{2}\lambda \sum\limits_{j=1}^{T}{w_{j}^{2}} \right]+constant \\ & = \sum\limits_{j=1}^{T}{\left[ (\sum\limits_{i\in {{I}_{j}}}{{{g}_{i}}}){{w}_{j}}+\frac{1}{2}(\sum\limits_{i\in {{I}_{j}}}{{{h}_{i}}}\text{+}\lambda )w_{j}^{2} \right]}+\gamma T\\ & = \sum\limits_{j=1}^{T}{\left[ {{G}_{j}}{{w}_{j}}+\frac{1}{2}\text{(}{{H}_{j}}\text{+}\lambda )w_{j}^{2} \right]}+\gamma T \\ \end{aligned}$
【注意】 $G_i=\sum\limits_{i\in {{I}_{j}}}{{{g}_{i}}}, H_i=\sum\limits_{i\in {{I}_{j}}}{{{h}_{i}}}$ , $\color{red}\boldsymbol{I_j是没落在第j个叶子节点上的所有样本点集合}$
最终目标函数变成了 $T$ 个相互独立的单变量二阶二次函数

3.7 优化函数最小时的最优值

使用拉格朗日定理，让目标函数最小，对上面求偏导：
$\frac{\partial ob{{j}^{(t)}}}{\partial {{w}_{j}}}={{G}_{j}}+({{H}_{j}}+\lambda ){{w}_{j}}=0 \\ 求得： {{w}_{j}}\text{=}-\frac{{{G}_{j}}}{{{H}_{j}}+\lambda }$
则目标函数的最小优化值转换为：
$\begin{aligned} ob{{j}^{(t)}} & =-\frac{1}{2}\sum\limits_{j=1}^{T}{\frac{G_{j}^{2}}{{{H}_{j}}+\lambda }}+\gamma T \\ & = -\frac{1}{2}{\frac{G_{T}^{2}}{{{H}_{T}}+\lambda }}+\gamma T \end{aligned}$
【当所求的 $obj^{(t)}$ 满足上公式的 $f_t$ 时，是第 $t$ 棵树的最佳结构】

3.8 Xgboost的增益

有了最佳目标函数，就可以用划分左右的子棵树的最佳优化函数值的增益对比：
$Gain=\frac{1}{2}\left[ \frac{G_{L}^{2}}{{{H}_{L}}+\lambda }+\frac{G_{R}^{2}}{{{H}_{L}}+\lambda }-\frac{{{({{G}_{L}}+{{G}_{R}})}^{2}}}{{{H}_{L}}+{{H}_{R}}+\lambda } \right]-\gamma$