AdaBoost算法超详细讲解

最新推荐文章于 2025-03-29 10:56:09 发布

旅途中的宽~

最新推荐文章于 2025-03-29 10:56:09 发布

阅读量3.2w

点赞数 62

分类专栏：机器学习系列文章文章标签：算法机器学习 AdaBoost

原文链接：https://www.cnblogs.com/bonheur/p/12666332.html

版权

机器学习系列文章专栏收录该内容

77 篇文章

订阅专栏

一、Boosting提升算法

AdaBoost是典型的Boosting算法。

Boosting算法是将“弱学习算法“提升为“强学习算法”的过程，主要思想是“三个臭皮匠顶个诸葛亮”。

一般来说，找到弱学习算法要相对容易一些，然后通过反复学习得到一系列弱分类器，组合这些弱分类器得到一个强分类器。

Boosting算法要涉及到两个部分，加法模型和前向分步算法：

1. 加法模型

加法模型就是我们最终的强分类器是若干个弱分类器加权平均而得到的（弱分类器线性相加而成）。

2. 前向分步算法

前向分步就是我们在训练的过程中，下一轮迭代产生的分类器是在上一轮的基础上训练得来的。

我们的算法是通过一轮轮的弱学习器学习，利用前一个弱学习器的结果和当前弱学习器来更新当前的强学习器的模型。也就是说：

第 $k - 1$ 轮的强学习器为:
$f_{k−1}(x)=∑_{i=1}^{k−1}α_iG_i(x)$
而第 $k$ 轮的强学习器为：
$f_k(x)=∑_{i=1}^kα_iG_i(x)$
上两式一比较可以得到：
$f_k(x)=f_{k−1}(x)+\alpha_kG_k(x)$
可见强学习器的确是通过前向分步学习算法一步步而得到的。

二、AdaBoost算法

Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。

后一个模型的训练永远是在前一个模型的基础上完成！

这里的集合起来的策略是通过提高前一轮分类器分类错误的样本的权值，降低分类分类正确的样本权值，对于那些没有本分类正确的样本会得到后面分类器更多的关注。然后可以产生很多的弱分类器，通过多数加权投票组合这些弱分类器，加大误差率小的分类器，减少误差率大的分类器，使其在表决中起到较少的作用。

如下图所示：

算法思想：

（1）初始化训练样本的权值分布，每个样本具有相同权重；

（2）训练弱分类器，如果样本分类正确，则在构造下一个训练集中，它的权值就会被降低；反之提高。用更新过的样本集去训练下一个分类器；

（3）将所有弱分类组合成强分类器，各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器的权重，降低分类误差率大的弱分类器的权重。

我们的步骤可以如下图表示：

由Adaboost算法的描述过程可知，该算法在实现过程中根据训练集的大小初始化样本权值，使其满足均匀分布，在后续操作中通过公式来改变和规范化算法迭代后样本的权值。样本被错误分类导致权值增大，反之权值相应减小，这表示被错分的训练样本集包括一个更高的权重。这就会使在下轮时训练样本集更注重于难以识别的样本，针对被错分样本的进一步学习来得到下一个弱分类器，直到样本被正确分类。在达到规定的迭代次数或者预期的误差率时，则强分类器构建完成。

boosting算法要解决的问题：

1）如何计算学习误差率 $e$ ?

2）如何得到弱学习器权重系数 $α$ ?

3）如何更新样本权重 $D$ ?

4）使用何种结合策略？

三、Adaboost分类算法原理

假设一个二分类训练样本集：
$T=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$
训练集的在第 $k$ 个弱学习器的输出权重为：
$D(k)=(w_{k1},w_{k2},...,w_{km});w_{1i}=\frac1m;i=1,2,...,m$
第 $k$ 个弱分类器 $G_k(x)$ 在训练集上的加权误差率为：
$e_k=P(G_k(x_i)≠y_i)=∑_{i=1}^mw_{ki}I(G_k(x_i)≠y_i)$
第 $k$ 个弱分类器 $G_k(x)$ 的权重系数为：
$α_k=\frac{1}{2}\log\frac{1−e_k}{e_k}$
为什么这样计算弱学习器权重系数？

从上式可以看出，如果分类误差率 $e_k$ 越大，则对应的弱分类器权重系数 $α_k$ 越小。也就是说，误差率小的弱分类器权重系数越大。具体为什么采用这个权重系数公式，我们在讲Adaboost的损失函数优化时再讲。

更新样本权重 $D$ 。假设第 $k$ 个弱分类器的样本集权重系数为 $D(k)=(w_{k1},w_{k2},...w_{km})$ ，则对应的第 $k + 1$ 个弱分类器的样本集权重系数为：
$w_{k+1,i}=\frac{w_{ki}}{Z_K}exp(−α_ky_iG_k(x_i))$
这里 $Z_k$ 是规范化因子：
$Z_k=∑_{i=1}^mw_{ki}exp(−α_ky_iG_k(x_i))$
从 $w_{k+1,i}$ 计算公式可以看出，如果第 $i$ 个样本分类错误，则 $y_iG_k(x_i)<0$ ，导致样本的权重在第 $k + 1$ 个弱分类器中增大，如果分类正确，则权重在第 $k + 1$ 个弱分类器中减少。具体为什么采用样本权重更新公式，我们在讲Adaboost的损失函数优化时再讲。

最后是集合策略。Adaboost分类采用的是加权表决法，构建基本分类器的线性组合：
$f(x)=∑_{k=1}^Kα_kG_k(x)$
最终的强分类器为：
$G(x)=sign(f(x))=sign(∑_{k=1}^Kα_kG_k(x))$

四、AdaBoost分类问题的损失函数优化

分类问题的Adaboost的弱学习器权重系数公式和样本权重更新公式，可以从Adaboost的损失函数推导出来。

Adaboost是模型为加法模型，学习算法为前向分步学习算法，损失函数为指数函数的分类问题。

首先AdaBoost算法的最终模型表达式为：
$f(x)=∑_{m=1}^Mα_kG_k(x)$
可以看到这是一个“加性模型(additive model)”。我们希望这个模型在训练集上的经验误差最小，即：
$min∑_{i=1}^NL(y_i,f(x))<=>\min∑_{i=1}^NL(y_i,∑_{i=1}^Mα_mG_m(x))$
通常这是一个复杂的优化问题。前向分步算法求解这一优化问题的思想就是: 因为最终模型是一个加性模型，如果能从前往后，每一步只学习一个基学习器 $G_m(x)$ 及其权重 $α_m$ , 不断迭代得到最终的模型，那么就可以简化问题复杂度。具体的，当我们经过 $m - 1$ 轮迭代得到了最优模型 $f_{m−1}(x)$ 时，由前向分步算法可知：
$f_m(x)=f_{m−1}(x)+α_mG_m(x)$
所以此轮优化目标就为：
$min∑_{i=1}^NL(y_i,f_{m−1}(x)+α_mG_m(x))$
求解上式即可得到第 $m$ 个基分类器 $G_m(x)$ 及其权重 $α_m$ 。

这样，前向分步算法就通过不断迭代求得了从 $m = 1$ 到 $m = M$ 的所有基分类器及其权重，问题得到了解决。

上面主要介绍了前向分步算法逐一学习基学习器，这一过程也即AdaBoost算法逐一学习基学习器的过程。下面将证明前向分步算法的损失函数是指数损失函数(exponential loss function)时，AdaBoost学习的具体步骤。

首先指数损失函数即 $L (y, f (x)) = e x p (- y f (x))$ ，指数损失函数是分类任务原本0/1损失函数的一致(consistent)替代损失函数，由于指数损失函数有更好的数学性质，例如处处可微，所以我们用它替代0/1损失作为优化目标。

AdaBoost是采用指数损失，由此可以得到损失函数：
$Loss=∑_{i=1}^Nexp(−y_if_m(x_i))=∑_{i=1}^N(−y_i(f_{m−1}(x_i)+α_mG_m(x)))$
因为 $y_if_{m−1}(x)$ 与优化变量 $α$ 和 $G$ 无关，所以令 $w_{m,i}=exp(−y_if_m(x))$ ，这里 $y_if_{m−1}(x)$ 是已知的，相当于可以作为常量移到前面去：
$Loss=∑_{i=1}^Nw_{m,i}exp(−y_iα_mG_m(x)))$
接下来就是求解上式的优化问题的最优解 $\hat{\alpha_m}$ 和 $\hat{G_m(x)}$ 。

首先我们求 $\hat{G_m(x)}$ ，可以得到：
$G_m(x)=\arg\min_{G}∑_{i=1}^mw_{mi}I(y_i≠G_m(x_i))$
上式将指数函数换成指示函数是因为前面说的指数损失函数和0/1损失函数是一致等价的。

式子中所示的优化问题其实就是AdaBoost算法的基学习器的学习过程，即计算数据集的分类误差率，得到的 $\hat{G_m(x)}$ 是使第 $m$ 轮加权训练数据分类误差最小的基分类器。

然后求 $\hat{α_m}$ ，将 $G_m(x)$ 带入损失函数，并对 $α$ 求导，使其等于0，即可得到：
$α_m=\frac{1}{2}\log \frac{1−e_m}{e_m}$
其中， $e_m$ 即为我们前面的分类误差率：
$e_m=\frac{∑_{i=1}^mw_{mi}I(y_i≠G(x_i))}{∑_{i=1}^mw_{mi}}=∑_{i=1}^mw_{mi}I(y_i≠G(x_i))$
最后看样本权重的更新：利用 $f_m(x)=f_{m−1}(x)+α_mG_m(x)$ 和 $w_{mi}=exp(−y_if_{m−1}(x))$ ，即可得：
$w_{m+1,i}=w_{mi}exp[−y_iα_mG_m(x)]$
到此AdaBoost二分类算法推导结束。

五、AdaBoost二元分类问题算法流程总结

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ ，输出为{-1, +1}，弱分类器算法, 弱分类器迭代次数 $K$ ；

输出：为最终的强分类器 $f (x)$ 。

初始化样本集权重为：
$D(1)=(w_{11},w_{12},...w_{1m});w_{1i}=\frac{1}{m};i=1,2...m$
对于 $k = 1, 2, ... K$ ：

a) 使用具有权重 $D_k$ 的样本集来训练数据，得到弱分类器 $G_k(x): \chi→\{−1,+1\}$

b) 计算 $G_k(x)$ 的分类误差率：
$e_k=P(G_k(x_i)≠y_i)=∑_{i=1}^mw_{ki}I(G_k(x_i)≠y_i)$
c) 计算弱分类器的系数：
$α_k=\frac{1}{2}\log \frac{1−e_k}{e_k}$
d) 更新样本集的权重分布：
$w_{k+1,i}=w_{ki}Z_Kexp(−α_ky_iG_k(x_i))\;\;\;,i=1,2,...m$
这里 $Z_k$ 是规范化因子：
$Z_k=∑_{i=1}^mw_{ki}exp(−α_ky_iG_k(x_i))$

构建最终分类器为：
$f(x)=sign(∑_{k=1}^Kα_kG_k(x))$

对于Adaboost多元分类算法，其实原理和二元分类类似，最主要区别在弱分类器的系数上。比如Adaboost SAMME算法，它的弱分类器的系数：
$α_k=\frac{1}{2}\log \frac{1−e_k}{e_k}+\log(R−1)$
其中R为类别数。

从上式可以看出，如果是二元分类，R=2，则上式和我们的二元分类算法中的弱分类器的系数一致。

六、Adaboost回归算法原理

由于Adaboost的回归问题有很多变种，这里我们以Adaboost R2算法为准。

假设一个回归训练集样本是：
$T=\{(x_1,y_1),(x_2,y_2),...(x_m,y_m)\}$
训练集的在第 $k$ 个弱学习器的输出权重为：
$D(k)=(w_{k1},w_{k2},...w_{km})\;\;;w_{1i}=1m\;\;;i=1,2...m$
回归问题的误差率

对于第 $k$ 个弱学习器，计算它在训练集上的最大误差：
$E_k=\max|y_i−G_k(x_i)|\;;\;i=1,2...m$
然后计算每个样本的相对误差：
$e_{ki}=|y_i−G_k(x_i)|E_k$
这里是误差损失为线性时的情况，如果我们用平方误差，则:
$e_{ki}=\frac{(y_i−G_k(x_i))^2}{E_k^2}$
如果我们用的是指数误差，则:
$e_{ki}=1−exp（\frac{−y_i+G_k(x_i))}{E_k}）$
最终得到第 $k$ 个弱学习器的误差率：
$e_k=∑_{i=1}^mw_{ki}e_{ki}$
弱学习器权重系数 $α$

接下来计算弱学习器权重系数 $α$ ：
$α_k=\frac{e_k}{1−e_k}$
计算更新样本权重 $D$ ，第 $k + 1$ 个弱学习器的样本集权重系数为：
$w_{k+1,i}=\frac{w_{ki}}{Z_k}α_k^{1−e_{ki}}$
这里 $Z_k$ 是规范化因子：
$Z_k=∑_{i=1}^mw_{ki}α_k^{1−e_{ki}}$
最后是结合策略，和分类问题稍有不同，采用的是对加权的弱学习器取权重中位数对应的弱学习器作为强学习器的方法，最终的强回归器为：
$f(x)=G_k^∗(x)$
其中， $G_k^∗(x)$ 是所有 $ln\frac{1}{α_k}\;,\;k=1,2,....K$ 的中位数值对应序号 $k^*$ 对应的弱学习器。

七、Adaboost回归问题算法流程总结

这里再对AdaBoost回归问题算法流程做一个总结，AdaBoost回归算法变种很多，下面的算法为Adaboost R2回归算法过程。

输入为样本集： $T=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ ，弱学习器算法, 弱学习器迭代次数 $K$ ；

输出为最终的强学习器： $f (x)$ 。

初始化样本集权重为:
$D(1)=(w_{11},w_{12},...,w_{1m})\;,\;w_{1i}=1m\;,\;i=1,2...m$
对于 $k = 1, 2, ..., K$ ：

a) 使用具有权重 $D_k$ 的样本集来训练数据，得到弱学习器： $G_k(x)$

b) 计算训练集上的最大误差：
$E_k=\max|y_i−G_k(x_i)|\;,\;i=1,2...m$
c) 计算每个样本的相对误差：

如果是线性误差，则:
$e_{ki}=\frac{|y_i−G_k(x_i)|}{E_k}$
如果是平方误差，则:
$e_{ki}=\frac{(y_i−G_k(x_i))^2}{E_k^2}$
如果是指数误差，则:
$e_{ki}=1−exp(\frac{−|y_i−G_k(x_i)|}{E_k})$
d) 计算回归误差率：
$e_k=∑_{i=1}^mw_{ki}e_{ki}$
e) 计算弱学习器的系数：
$α_k=\frac{e_k}{1−e_k}$
f) 更新样本集的权重分布为：
$w_{k+1,i}=\frac{w_ki}{Z_k}α_k^{1−e_ki}$
这里 $Z_k$ 是规范化因子：
$Z_k=∑_{i=1}^mw_{ki}α_k^{1−e_{ki}}$

构建最终强学习器为：
$f(x)=G_k^∗(x)$
其中， $G_k^∗(x)$ 是所有 $\ln \frac{1}{\alpha_k}\;,\;k=1,2,\cdots,K$ 的中位数值对应序号 $k^∗$ 对应的弱学习器。

八、Adaboost算法的正则化

为了防止Adaboost过拟合，我们通常也会加入正则化项，这个正则化项我们通常称为步长(learning rate)。定义为 $ν$ ,对于前面的弱学习器的迭代：
$f_k(x)=f_{k−1}(x)+α_kG_k(x)$
如果我们加上了正则化项，则有：
$f_k(x)=f_{k−1}(x)+να_kG_k(x)$
$ν$ 的取值范围为 $0 < ν \leq 1$ 。对于同样的训练集学习效果，较小的 $ν$ 意味着我们需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起来决定算法的拟合效果。