从AdaBoost到GBDT（part 1）

最新推荐文章于 2022-02-01 17:35:26 发布

wuzqchom

最新推荐文章于 2022-02-01 17:35:26 发布

阅读量569

点赞数

分类专栏： Machine Learning 文章标签： machine-learning

本文链接：https://blog.csdn.net/wuzqchom/article/details/69487847

版权

Machine Learning 专栏收录该内容

14 篇文章 3 订阅

订阅专栏

标签（空格分隔）： ML

注：本文假设读者已经有了AdaBoost和GBDT的背景知识。

看到网上关于AdaBoost和GBDT资料都不少，可是鲜有资料介绍他们联系，刚好之前有看过，最近复习到此，觉得有所收获，所以记录下来。此为读书笔记，若有错误，请予纠正。

前情概要：涉及公式较多，如要阅读，请提前找一个安静场所。

转载请标明出处：http://blog.csdn.net/wuzqChom/article/details/69487847
本篇文章分为两部分，第二部分：http://blog.csdn.net/wuzqChom/article/details/69487888

另一个角度看AdaBoost

我们已经知道AdaBoost每一次的样本的权重更新公式如下：

U t + 1 n = {U t n * ♣ t U t n / ♣ t, i n c o r r e c t, c o r r e c t .

$U^{t+1}_{n} = \left\{ \begin{array}{rcl} U^{t}_{n} * \clubsuit_{t} & & ,incorrect\\ U^{t}_{n}/ \clubsuit_{t} & &,correct\\ \end{array}. \right .$ 其中：

♣t=1−εtεt−−−−√ $\clubsuit_{t}=\sqrt{\frac{1-\varepsilon_t}{\varepsilon_t}}$ (更新权值公式的推导可见周志华《机器学习》p175)，只需要这是最优的更新因子就行了，推导这里略过。

Ut+1n $U^{t+1}_{n}$ 为第

t+1 $t+1$ 轮第

n $n$ 个样本的权重。

εt $\varepsilon_t$ 为分类器的错误率。

AdaBoost最终的学习的分类器为 $G(x)=sign(\sum_{t=1}^{T}\alpha_{t}g_{t}(x))$
公式的符号说明如下：
$T$ 为投票分类器的个数，即总共有多少棵决策树
$\alpha_{t}$ 为第 $t$ 个分类器(决策树)的权重，且 $\alpha_{t}=ln\clubsuit_{t}$ .
$g_{t}(x)$ 为第 $t$ 个分类器(决策树)的学习到的结果， $x$ 为数据集中的样本特征
$sign为符号函数$

U t + 1 n = U t n * ♣ - y n g t (x n) t = U t n * e x p (- y n α t g t (x n))

$\begin{align*} U^{t+1}_{n}&=U^{t}_{n} *\clubsuit_{t}^{-y_{n}g_{t}(x_n)}\\ &=U^{t}_{n} *exp(-y_{n}\alpha_{t}g_{t}(x_n)) \end{align*}$

这里只是利用 $\alpha_{t}=ln\clubsuit_{t}$ 做了一个小小的变换， $y_n$ 是 $x_n$ 样本的真实label， $g_{t}(x_n)$ 为训练出分类器得到的label,若同号则降低该样本的权重否则增大错误样本的权重使得分类器下一轮尽可能分对。

U t + 1 n = U t n * e x p (- y n α t g t (x n)) = U 1 n Π T t = 1 e x p (- y n α t g t (x n)) = 1 N e x p (- y n \sum t = 1 T α t g t (x n))

$\begin{align*} U^{t+1}_{n} &=U^{t}_{n} *exp(-y_{n}\alpha_{t}g_{t}(x_n))\\ &=U^{1}_{n}\Pi_{t=1}^{T}exp(-y_{n}\alpha_{t}g_{t}(x_n))\\ &=\frac{1}{N}exp(-y_{n}\sum_{t=1}^{T}\alpha_{t}g_{t}(x_n)) \end{align*}$

还记得我们的前面的大分类器 $G(x)$ 取符号函数钱的式子。
换个角度考虑 $G(x)=sign(\overbrace{\sum_{t=1}^{T}\underbrace{\alpha_{t}}_{w_i}\underbrace{g_{t}(x)}_{\phi_i}}^{s_{n}})$
得到, $U^{T+1}_{n}\propto exp(-y_ns_n)$
把 $w$ 看成是权重, $\phi$ 看成是特征的转换,是不是有点像没有正规化的SVM边界优化目标

$margin=\frac{y_n(w^T\phi(x_n)+b)}{||w||}$

所以边界当然是希望是正的并且越大越好，这也显示了AdaBoost出来的可视化图形其边界和SVM很相似。
所以现在的优化目标变成了

最大化 $y_ns_n\Leftrightarrow$ 最小化 $exp(-y_ns_n)\Leftrightarrow$ 最小化 $U^{T+1}_{n}$

所以可以认为AdaBoost的优化目标为减少 $\sum_{n=1}^{N} U^{t}_{n}$ ,这也是很好理解的AdaBoost想要训练样本尽量正确那么就会降低其权值，从实验情况来看，也确实有这个性质。

如果说上面这种推导方式比较难以理解，那么我们再从另一个角度看看：
假设 $Z_{t}=\sum_{n=1}^{N} U^{t}_{n}$ ,为第t次迭代的权重之和。那么 $Z_t$ 和 $Z_{t-1}$ 的关系如下：

$Z t = Z t - 1 ε t e x p (α t) + Z t - 1 (1 - ε t) e x p (- α t)$ $Z_{t}=Z_{t-1} \varepsilon_t exp(\alpha_t)+Z_{t-1}(1-\varepsilon_t)exp(-\alpha_t)$
什么意思呢？
$\varepsilon_t$ 是我们的分类器的错误率， $\clubsuit_{t}=exp(\alpha_{t})$ 把权重，即错误的权重乘上 $\clubsuit_{t}$ ，正确的权重除以 $\clubsuit_{t}$ 。第一部分就是所有错误样本更新后的权重之和，第二部分为所有错正确样本更新后的权重之和。和上面的权重更新公式是一致的。这个式子清楚之后我们把 $\alpha_t$ 代入：

$Z t = Z t - 1 ε t e x p (α t) + Z t - 1 (1 - ε t) e x p (- α t) = Z t - 1 ε t ( 1 - ε t ) ε t - - - - - - - \sqrt + Z t - 1 (1 - ε t) ε t 1 - ε t - - - - - - \sqrt) = 2 Z t - 1 ε t - ε 2 t - - - - - - \sqrt$ $\begin{align*} Z_{t}&=Z_{t-1} \varepsilon_t exp(\alpha_t)+Z_{t-1}(1-\varepsilon_t)exp(-\alpha_t)\\ &=Z_{t-1} \varepsilon_t \sqrt{\frac{(1-\varepsilon_t)}{\varepsilon_t}}+Z_{t-1}(1-\varepsilon_t)\sqrt{\frac{\varepsilon_t}{1-\varepsilon_t}})\\ &=2Z_{t-1}\sqrt{\varepsilon_t-\varepsilon_t^2} \end{align*}$
所以 $\sqrt{\varepsilon_t-\varepsilon_t^2}$ 在 $\varepsilon_t=0.5$ 时可以取得最大值，由于 $0<\varepsilon_t<0.5$ ，所以 $Z_{t}<Z_{t-1}$ 。所以从第二个角度说明了Adaboost的可以使得样本的权重之和不断减小。

于是，我么就有了新的目标函数：

$\sum_{n=1}^{N}U^{T+1}_{n}=\frac{1}{N}\sum_{n=1}^{N}exp(-y_{n}\sum_{t=1}^{T}\alpha_{t}g_{t}(x_n))$

走了那么久，别忘了为什么出发，到现在还没有见到GBDT？有了上面这个式子，GBDT马上出场。请见下一部分。

参考资料：
林轩田. 机器学习课程技法部分 Lecture 11.
李宏毅. machine learning course Ensemble.

wuzqchom

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
从AdaBoost到GBDT（part 1）

标签（空格分隔）： ML看到网上关于AdaBoost和GBDT资料都不少，可是鲜有资料介绍他们联系，刚好之前有看过，最近复习到此，觉得有所收获，所以记录下来。此为读书笔记，若有错误，请予纠正。前情概要：涉及公式较多，如要阅读，请提前找一个安静场所。另一个角度看AdaBoost我们已经知道AdaBoost每一次的样本的权重更新公式如下： Ut+1n={Utn∗♣tUtn/♣t,incorrect
复制链接

扫一扫