集成学习，adaboosting与Gradient Boosting 原理解析_gradientboosting与adaboosting的异同-CSDN博客

本文链接：https://blog.csdn.net/zhuimeng999/article/details/80387078

姓名：Jyx
描述：人工智能学习笔记

集成学习

集成学习将各种不同的学习器联合起来，以期提高总体的预测效果。为发掘各个学习器的优点，需要一套专门的方案来进行联合。
1. 几何平均。将各个分类器的预测结果进行几何平均。其基本原理是使联合后的概率与各个学习器预测的概率的KL距离最小化
2. 算术平均。将各个分类器的预测结果进行算术平均
3. 多数投票。

并没有一般的规则来指导该选择何种方式联合学习器。另外，在特定的学习案例里甚至可能出现联合后的学习器比单个学习器中最好的还要差的情况

boosting

boosting 是一种特殊的集成学习方法。所有的‘基’分类器都是弱学习器，但通过采用特定的方式迭代，每次根据训练过的学习器的预测效果来更新样本权值，用于新的一轮学习，最终提高联合后的学习效果

adaboosting

adaboosting的分类目标是
$f(\bf{x}) = sign(F(\bf{x})) \\ where\ F(\bf{x}) = \sum_{k = 1}^K\alpha \phi(\bf{x};\bf{\theta}_k)$
其损失定义如下
$J(\bf{x})=\sum_{i=1}^Nexp(-y_i F(\bf{x}_i)) \tag{1}$
adaboosting要求每个‘基’分类器返回二值标记，即 $\phi(\bf{x};\bf{\theta}) \in \{-1, 1\}$ ，而且类别标记 $\in \{-1, 1\}$ 。因此分类成功是的损失总是 $e x p (- 1)$ ，失败时的损失总是 $e x p (1)$ ，所以失败时有更多的惩罚，最小化损失即最大化成功率

adaboosting算法

(1)式的优化是一个NPC问题。我们只能退而寻求次优的解法。实际操作中使用的是分段最优的搜索方式，从第一个函数开始，每次添加一个函数，并优化此轮的目标。
我们定义
$F_m(\bf{x}) = F_{m - 1}(\bf{x}) + \alpha_m \phi(\bf{x};\theta_m) \\ \text{显然有 }F(\bf{x}) = F_K(\bf{x})$
在第m步，我们优化的目标
$\begin{aligned} J_m(\bf{x}) &= \sum_{i=1}^Nexp(-y_i F_m(\bf{x}_i)) \\ &=\sum_{i = 1}^N exp(-y_i(F_{m - 1}(\bf{x}_i) + \alpha_m \phi(\bf{x}_i;\theta_m))) \\ &=\sum_{i = 1}^N w_i^m exp(-y_i\alpha_m \phi(\bf{x}_i;\theta_m)), where\ w_i^m =exp(-y_i F_{m - 1}(\bf{x}_i)) \end{aligned}$
这里 $w_i^m$ 与本轮的优化目标无关，可以在每回合迭代开始计算好，并且我们可以把 $w_i^m$ 看成是第m轮第i个样本的权重，如果所有的 $w_i^m$ 相加不等于1，我们很容易通过归一化使其等于1，并且这样的变化不影响优化，归一化后，有
$\sum_{i = 1}^Nw_i^m = 1$
在前面说过 $\phi(\bf{x};\bf{\theta}) \in \{-1, 1\}$ ， $\in \{-1, 1\}$ ，用 $\hat{y}_i$ 表述第 $i$ 个样本的预测值，则
$J_m(\bf{x}) = exp(-\alpha_m)\underbrace {\sum_{\hat{y}_i =y_i}w_i^m}_2 + exp(\alpha_m)\underbrace{\sum_{\hat{y}_i \neq y_i}w_i^m}_3 \tag{4}$
因为所有的 $w_i^m$ 加起来等于1。于是上式中的2部分小了，3部分就大了，反之亦然。
于是最小化目标函数等价于最小化3部分(显然 $exp(\alpha_m) > exp(-\alpha_m)$ )。
$\theta_m = \mathop{\arg\min}_{\theta}\sum_{i = 1}^Nw_i^m I(1 - y_i \phi(\bf{x}_i;\bf{\theta}_m) \tag{5}\\ \begin{aligned} I(x) = \begin{cases} 0& \text{x=0}\\ 1& \text{x!=0} \end{cases} \end{aligned}$
上式优化依赖于具体的 $\phi(\bf{x};\bf{\theta})$ ，相当于对 $\phi(\bf{x};\bf{\theta})$ 求最小经验风险
一旦5式得解, 就可以求出具体的 $\sum_{\hat{y}_i =y_i}w_i^m$ ， $\sum_{\hat{y}_i \neq y_i}w_i^m$ ，令
$\sum_{\hat{y}_i \neq y_i}w_i^m = P_m \\ 则\sum_{\hat{y}_i =y_i}w_i^m = 1 - P_m$
然后对4式求导并使其等于0，可以得到
$\alpha_m = \dfrac{1}{2}\ln{\dfrac{1 - P_m}{P_m}}$
然后
$w_i^{m+1} =\frac{exp(-y_i F_m(\bf{x}_i))}{Z_m} = \frac{w_i^m exp(-y_i \alpha_m \phi(\bf{x}_i;\theta_m))}{Z_m} \\ Z_m \text{是归一化因子，所以等于所有N个分子之和，即} \\ Z_m=\sum_{i = 1}^Nw_i^m exp(-y_i \alpha_m \phi(\bf{x}_i;\theta_m))$
这样adaboost算法就得解了
Gradient Boosting

L2 boosting

adaboost 提供了一个思路，我们替换adaboost损失函数（1）便可以得到不同的算法，例如把指数损失换成L2损失
$J(\bf{x})=\sum_{i=1}^N (y_i - F(\bf{x}_i) )^2 \\$
在第m步
$J_m(\bf{x}) = \sum_{i=1}^N (y_i - F_m(\bf{x}_i) )^2=\sum_{i=1}^N (y_i - F_{m - 1}(\bf{x}_i) - \alpha_m \phi(\bf{x}_i;\theta_m))^2 = \sum_{i=1}^N (r_i -\alpha_m \phi(\bf{x}_i;\theta_m )^2 \tag{6} \\ r_i = y_i - F_{m - 1}(\bf{x}_i)~~\text{被称为残差}$
6式可以简单的看成对残差进行预测的L2回归任务进行解决
这种损失的定义我们成为L2boosting

一般的Gradient Boosting

将损失定义为任意函数的boosting就是Gradient Boosting。
对于任意损失函数 $L(y,F(\bf{x}))$ ,在第m步，
$L(y,F_m(\bf{x})) = L(y,F_{m - 1}(\bf{x}) + \alpha_m \phi(\bf{x};\theta_m))$
直接优化上式是一个很困难的任务，我们只能退而求其次
这时我们想想梯度下降法求函数极值的过程，考虑 $F_{m - 1}(\bf{x})$ , $\Delta x= \alpha_m \phi(\bf{x};\theta_m)$ ，回忆梯度下降法，我们每步的迭代方向为负梯度方向，即有
$\alpha_m \phi(\bf{x};\theta_m) =-\frac{\mathrm{d} L(y,F_{m-1}(\bf{x})) }{\mathrm{d F_{m-1}(\bf{x)}}}$
这样我们就只要每次训练 $\theta_m$ 是得上式想等，就可以进行更新
$F_m(\bf{x}) = F_{m - 1}(\bf{x}) + \alpha_m \phi(\bf{x};\theta_m)$
这就是所谓的每次预测负梯度方向