从AdaBoost到GBDT（part 2）

最新推荐文章于 2022-02-01 17:35:26 发布

wuzqchom

最新推荐文章于 2022-02-01 17:35:26 发布

阅读量680

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/wuzqchom/article/details/69487888

版权

Machine Learning 专栏收录该内容

14 篇文章 3 订阅

订阅专栏

注：本文假设读者已经有了AdaBoost和GBDT的背景知识。

看到网上关于AdaBoost和GBDT资料都不少，可是鲜有资料介绍他们联系，刚好之前有看过，最近复习到此，觉得有所收获，所以记录下来。此为读书笔记，若有错误，请予纠正。

前情概要：涉及公式较多，如要阅读，请提前找一个安静场所。

转载请标明出处：http://blog.csdn.net/wuzqchom/article/details/69487888
本篇文章分为两部分，第一部分：http://blog.csdn.net/wuzqChom/article/details/69487847

从AdaBoost到GBDT

若上面的式子使用梯度下降求解，则可将式子变换为：

$\min\limits_{\eta}\min\limits_{h} \frac{1}{N}\sum_{n=1}^{N}exp(-y_{n}(\sum_{t=1}^{T-1}\alpha_{t}g_{t}(x_n)+\eta h(x_n)))$

$h$ 可以想象为一个方向， $\eta$ 为往该方向走多远,和梯度下降完全一个概念。对应到AdaBoost上面， $h$ 即为一棵决策树，而 $\eta$ 即为该树的权重。
上面的AdaBoost损失函数是指数函数，把它generalize一点：

$\min\limits_{\eta}\min\limits_{h} \frac{1}{N}\sum_{n=1}^{N}err(\sum_{t=1}^{T-1}\alpha_{t}g_{t}(x_n)+\eta h(x_n),y_n)$

上面的式子就是GradientBoost 的优化式子了。但是损失函数要求平滑。
将 $err$ 损失函数换成squared-error，并一阶泰勒展开（先不考虑 $\eta$ ）：

min h 1 N \sum n = 1 N e r r (\sum t = 1 T - 1 α t g t (x n)              s n + η h (x n), y n) \approx min h 1 N \sum n = 1 N e r r (s n, y n) + 1 N \sum n = 1 N η h (x n) * 2 (s n - y n)

$\begin{align*} \min\limits_{h} \frac{1}{N}\sum_{n=1}^{N}err(\underbrace{\sum_{t=1}^{T-1}\alpha_{t}g_{t}(x_n)}_{s_n}+\eta h(x_n),y_n)\\ \approx \min\limits_{h}\frac{1}{N}\sum_{n=1}^{N}err(s_n,y_n)+\frac{1}{N}\sum_{n=1}^{N}\eta h(x_n)*2(s_n-y_n) \end{align*}$
由于我们现在是要优化关于

h $h$ 的函数，所以第一项可以看成是常数，还记得吗，

h $h$ 即相当于确定了一个方向而已，至于走多远，我们可以交由

η $\eta$ 来决定(即第二步优化确定)，但我们目前仅关注应该往哪个方向走。我们可以加限制条件令

h $h$ 的长度为1，但是约束化的优化问题比较不容易求，可以加一个L2正则转换成无约束的优化问题。上式就变成了：

min h C 1 + η N \sum n = 1 N (h (x n) * 2 (s n - y n) + (h (x n)) 2) = C 1 + η N \sum n = 1 N (C 2 + (h (x n) - (y n - s n)) 2)

$\begin{align*} \min\limits_{h}C_1+\frac{\eta}{N}\sum_{n=1}^{N}( h(x_n)*2(s_n-y_n) +(h(x_n))^2)\\ =C_1+\frac{\eta}{N}\sum_{n=1}^{N}(C_2+(h(x_n)-(y_n-s_n))^2) \end{align*}$

C1,C2 $C_1,C_2$ 为常数项，第一个式子到第二个式子用了配方，并把无关项设为常数

C2 $C_2$ .
从上面的式子可以看出，加了正则化的优化目标即为求平方错误的回归问题

{xn,yn−sn} $\{x_n,{y_n-s_n}\}$ ,

yn−sn $y_n-s_n$ 即为残差。GBDT每一棵决策树就是为了拟合残差，这是朝着

h $h$ 方向走的结果，而

h $h$ 为一个函数，在GBDT当中即为一棵决策树。
好了，现在我们方向找到了，究竟应该朝这个方向走多远，那么就是

η $\eta$ 来决定啦。优化

η $\eta$ 容易得多，即为单变量的优化问题(注意此时已经从

g $g$ 的集合

h $h$ 中找到了最优的

gt $g_t$ ):

min η 1 N \sum n = 1 N (- y n (\sum t = 1 T - 1 α t g t (x n)                    s n + η g t (x n) - y n)) 2 = 1 N ((y n - s n) - η g t (x n)) 2

$\begin{align*} \min\limits_{\eta}\frac{1}{N}\sum_{n=1}^{N}(\underbrace{-y_{n}(\sum_{t=1}^{T-1}\alpha_{t}g_{t}(x_n)}_{s_n}+\eta g_t(x_n)-y_n))^2\\ =\frac{1}{N}((y_n-s_n)-\eta g_t(x_n))^2 \end{align*}$
又见残差！！
经过上述的优化之后，我们就得到了

αt $\alpha_t$ 和

gt $g_t$ ，对了，上述所说的准确来说还只是GB回归问题，假如我们的每一个

g $g$ 都是有决策树学术来的，那么就是我们要的GBDT了。
简单总结一下GBDT的过程：

用决策树算法学，以{xn,yn−sn}为目标学得棵决策树 gt 。
- 在学得 $g_t$ 之后，解{ $g_t(x_n)$ , $y_n-s_n$ }的单变量的线性回归问题得到 $\alpha_t$ 。
- 更新 $s_n=s_n+\alpha_tg_t(x_n)$
- 重复1-3，到一定次数为止，返回 $G(x)=\sum_{t=1}^{T}\alpha_tg_t(x)$
- ps:
  GBDT实际上是用回归树来作为基分类器，所以用GBRT可能更合适一点。
  
  The end.
  
  参考资料：林轩田. 机器学习技法课程 Lecture 11.

wuzqchom

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从AdaBoost到GBDT（part 2）

从AdaBoost到GBDT若上面的式子使用梯度下降求解，则可将式子变换为：minηminh1N∑Nn=1exp(−yn(∑T−1t=1αtgt(xn)+ηh(xn)))\min\limits_{\eta}\min\limits_{h} \frac{1}{N}\sum_{n=1}^{N}exp(-y_{n}(\sum_{t=1}^{T-1}\alpha_{t}g_{t}(x_n)+\eta h(x_
复制链接

扫一扫