AdaBoost 算法

最新推荐文章于 2022-08-05 21:17:55 发布

ys1305

最新推荐文章于 2022-08-05 21:17:55 发布

阅读量266

点赞数

分类专栏：机器学习实战笔记

本文链接：https://blog.csdn.net/ys1305/article/details/97641863

版权

机器学习实战笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

笔记下载链接

AdaBoost 算法

Boosting族算法最著名的代表是AdaBoost算法。
AdaBoot算法两个核心步骤：
- 每一轮中如何改变训练数据的权值？
  
  AdaBoost算法提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。
  
  于是那些没有得到正确分类的数据由于权值的加大而受到后一轮的弱分类器的更大关注。
- 最后如何将一系列弱分类器组合成一个强分类器？
  
  AdaBoost 采用加权多数表决的方法：
  - 加大分类误差率较小的弱分类器的权值，使得它在表决中起较大作用。
  - 减小分类误差率较大的弱分类器的权值，使得它在表决中起较小的作用。
AdaBoost算法有两个特点：
- 不改变所给的训练数据，而不断改变训练数据权值的分布，使得训练数据在基本分类器的学习中起不同作用。
  - 因此AdaBoost要求基本学习器能够对特定的数据分布进行学习，这一般是在学习的时候为每个训练样本赋予一个权重。
  - 对于无法接受带权样本的基本学习算法，则可以通过“重采样法”来处理：即在每一轮学习中，根据样本分布对训练集重新采样，再用重采样的样本集对基本学习器进行训练。
  - 一般而言这两者没有显著的优劣差别。
- 利用基本分类器的线性组合 $f(\mathbf {\vec x})=\sum_{m=1}^{M}\alpha_mh_m(\mathbf {\vec x})$ 构成最终分类器：
  $H(\mathbf {\vec x})=\text{sign}(f(\mathbf {\vec x}))=\text{sign}\left(\sum_{m=1}^{M}\alpha_mh_m(\mathbf {\vec x})\right )$
  其中：
  - $f(\mathbf {\vec x})$ 的符号决定实例 $\mathbf {\vec x}$ 的分类。
  - $f(\mathbf {\vec x})$ 的绝对值表示分类的确信度。
AdaBoost 算法具有自适应性，即它能够自动适应弱分类器各自的训练误差率，这也是它的名字（适应的提升）的由来。

2.1.1 算法

AdaBoost算法：
- 输入：
  - 训练数据集 $\mathbb D=\{(\mathbf{\vec x}_1,\tilde y_1),(\mathbf{\vec x}_2,\tilde y_2),\cdots,(\mathbf{\vec x}_N,\tilde y_N)\},\;\mathbf{\vec x}_i \in \mathcal X \subset \mathbb R^{n},\tilde y_i \in \mathcal Y=\{-1,+1\}$
  - 弱学习算法
- 输出：集成分类器 $H(\mathbf {\vec x})$
- 算法步骤：
  - 初始化训练数据的权值分布 $W_1=(w_{1,1},w_{1,2},\cdots,w_{1,N}),w_{1,i}=\frac 1N$ 。
  - 对 $m=1,2,\cdots,M$
    - 使用具有权值分布 $W_m$ 的训练数据集学习，根据输入的弱学习算法得到基本分类器： $h_m(\mathbf {\vec x}):\mathcal X \rightarrow \{-1,+1\}$
    - 计算 $h_m(\mathbf {\vec x})$ 在训练数据集上的分类误差率： $e_m = \sum_{i=1}^{N}w_{m,i}I(h_m(\mathbf{\vec x}_i) \neq \tilde y_i)$ 。
      
      它就是所有误分类点的权重之和。其中权重越大的误差分类点，其在误差率中占比越大。
    - 若 $e_m \ge \frac 12$ ，算法终止，构建失败！
    - 计算 $h_m(\mathbf {\vec x})$ 的系数： $\alpha_m=\frac 12 \log \frac{1-e_m}{e_m}$ 。
      
      该系数表示 $h_m(\mathbf {\vec x})$ 在集成分类器中的重要性。它是$ e_m$ 的单调减函数，说明误差越小的基本分类器，其重要性越高。
      
      根据系数大于零要求 $e_m \lt \frac 12$ 。此时 $\alpha_m>0$
    - 更新训练数据集的权值分布： $W_{m+1}=(w_{m+1,1},w_{m+1,2},\cdots,w_{m+1,N})$ 。其中：
      $w_{m+1,i}=\frac{w_{m,i}}{Z_m}\exp(-\alpha_m\tilde y_ih_m(\mathbf{\vec x}_i))$
      $Z_m=\sum_{i=1}^{N}w_{m,i}\exp(-\alpha_m\tilde y_ih_m(\mathbf{\vec x}_i))$ 为规范化因子，它使得 $W_{m+1} $成为一个概率分布 ,即保证和为1。
      - $\tilde y_ih_m(\mathbf{\vec x}_i)$ 的取值只能为 $1, - 1$ ,如果是正确分类的点,则为1，分类错误的点为-1.具体解释见算法解释2.1.2-1
  - 构建基本分类器的线性组合： $f(\mathbf {\vec x})=\sum_{m=1}^{M}\alpha_mh_m(\mathbf {\vec x})，$ 于是得到集成分类器： $H(\mathbf {\vec x})=\text{sign}\left(\sum_{m=1}^{M}\alpha_mh_m(\mathbf {\vec x})\right)$
为防止过拟合，AdaBoost 通常会加入正则化项。该正则化项称作步长或者学习率，定义为 $\nu $。

考虑正则化项之后，模型的更新方式为： $f_m(\mathbf{\vec x}) = f_{m-1}(\mathbf{\vec x})+\nu \alpha_mh_m( \mathbf{\vec x})$ 。

2.1.2 算法解释

AdaBoost 提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。

这是通过更新训练数据集的权值分布 $W_{m+1}=(w_{m+1,1},w_{m+1,2},\cdots,w_{m+1,N})$ 来实现的。其中：
$w_{m+1,i}=\frac{w_{m,i}}{Z_m}\exp(-\alpha_m\tilde y_ih_m(\mathbf{\vec x}_i))\\ Z_m=\sum_{i=1}^{N}w_{m,i}\exp(-\alpha_m\tilde y_ih_m(\mathbf{\vec x}_i))$
- 对于正确分类样本， $h_m(\mathbf{\vec x}_i)=\tilde y_i$ 下一轮权重为： $w_{m+1,i}=\frac{w_{m,i}}{Z_m}\exp(-\alpha_m)$
- 对于错误分类样本， $h_m(\mathbf{\vec x}_i)\neq \tilde y_i$ 下一轮权重为： $w_{m+1,i}=\frac{w_{m,i}}{Z_m}\exp(\alpha_m)$
两者比较，误分类样本的权重是正确分类样本的权重的 $\exp(2\alpha_m)=\frac{e_m}{1-e_m}$ 倍。于是误分类样本在下一轮学习中权重更大。
集成分类器 $H(\mathbf {\vec x})=\text{sign}\left(\sum_{m=1}^{M}\alpha_mh_m(\mathbf {\vec x})\right)$ 结合 M 个基本分类器的方式为加权表决。
- 系数 $\alpha_m$ 表示了基本分类器 $h_m(\mathbf {\vec x})$ 的重要性。其中：
  $\alpha_m=\frac 12 \log \frac{1-e_m}{e_m}\\ e_m = \sum_{i=1}^{N}w_{m,i}I(h_m(\mathbf{\vec x}_i) \neq \tilde y_i)\\ 令\frac{\partial Z_{m}}{\partial \alpha_{m}}=\sum_{i=1}^{N}-w_{m i} y_{i} h_{m}\left(\mathbf{\vec x}_{i}\right) \exp \left(-\alpha_{m} y_{i} h_{m}\left(\mathbf{\vec x}_{i}\right)\right)=0\\ 即-exp(-\alpha_{m})(1-e_m)-(-exp(\alpha_{m})e_m)=0求得\alpha_m$
- 由于 $\alpha_m$ 是分类误差率 $e_m $的单调递减函数，因此：
  - AdaBoost 加大分类误差率较小的弱分类器的权值，使得它在表决中起较大作用。
  - AdaBoost 减小分类误差率较大的弱分类器的权值，使得它在表决中起较小的作用。

2.1.3 误差分析

定理一：AdaBoost算法集成分类器的训练误差上界为：
$\frac 1N \sum_{i=1}^{N}I(H(\mathbf{\vec x}_i) \neq \tilde y_i) \le \frac 1N \sum_{i=1}^{N}\exp(-\tilde y_if(\mathbf{\vec x}_i))=\prod_{m=1}^{M}Z_m\\ Z_m=\sum_{i=1}^{N}w_{m,i}\exp(-\alpha_m\tilde y_ih_m(\mathbf{\vec x}_i))$

$\frac{1}{N} \sum_i exp(-y_i f(x_i)) \\ = \frac{1}{N} \sum_i exp(-\sum_{m=1}^M \alpha_m y_i G_m(x_i))\\ 由于w_{1i}=\frac{1}{N},且将exp中的求和写成连乘的形式\\ = \sum_i w_{1i} \prod_{m=1}^M exp(-\alpha_m y_i G_m(x_i)) \\ =\sum_i [w_{1i}exp(-\alpha_1 y_i G_1(x_i)) ]\prod_{m=2}^M exp(-\alpha_m y_i G_m(x_i)) \\ 由于w_{m+1,i}=\frac{w_{m,i}}{Z_m}\exp(-\alpha_m\tilde y_ih_m(\mathbf{\vec x}_i))\\ 可得w_{m+1,i}Z_m=w_{m,i}\exp(-\alpha_m\tilde y_ih_m(\mathbf{\vec x}_i))\\ = \sum_i w_{2i}Z_1 \prod_{m=2}^M exp(-\alpha_m y_i G_m(x_i)) \\ = Z_1 \sum_i w_{2i} \prod_{m=2}^M exp(-\alpha_m y_i G_m(x_i)) \\ = Z_1 Z_2 \sum_i w_{3i} \prod_{m=3}^M exp(-\alpha_m y_i G_m(x_i)) \\ = ... \\ = Z_1 Z_2 ... Z_{M-1} \sum_i w_{Mi} exp(-\alpha_m y_i G_m(x_i)) \\ = \prod_{m=1}^M Z_m$

这一定理说明：可以在每一轮选取适当的$ h_m$ 使得 $Z_m$ 最小，从而使得训练误差下降最快。
定理二：二类分类 AdaBoost 的训练误差界：
$\prod_{m=1}^{M}Z_m=\prod_{m=1}^{M}\left[2\sqrt{e_m(1-e_m)} \;\right]=\prod_{m=1}^{M}\sqrt{(1-4\gamma_m^{2})} \le \exp(-2\sum_{m=1}^{M}\gamma_m^{2})$
其中 $\gamma_m=\frac 12-e_m$ 。

$Z_m = \sum_{i=1}^N w_{mi} exp(-\alpha_m y_i G_m(x_i) \\ = \sum_{y_i = G_m(x_i)} w_{mi} e^{-\alpha_m} + \sum_{y_i \neq G_m(x_i)} w_{mi} e^{\alpha_m} \\ = (1-e_m)e^{-\alpha_m} + e_m e^{\alpha_m}\\ 代入 \alpha_m=\frac 12 \log \frac{1-e_m}{e_m}\\ =2 \sqrt{e_m (1 - e_m)} = \sqrt{1 - 4\gamma_m^2 }$

$可以证明，当e_m<0.5时,Z_m=2 \sqrt{e_m (1 - e_m)}<1$

至于不等式 $exp(-2\sum_{m=1}^M \gamma_m^2) \geqslant\prod_{m=1}^M \sqrt{1-4\gamma_m^2}$ 可由 $e^{-2x^2})^2$ 在 $x = 0$ 的泰勒展开得到 $(e^{-2x^2})^2 \geqslant 1 - 4x^2$ 进而推出。

ys1305

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
AdaBoost 算法

笔记下载链接AdaBoost 算法Boosting族算法最著名的代表是AdaBoost算法。AdaBoot算法两个核心步骤：每一轮中如何改变训练数据的权值？AdaBoost算法提高那些被前一轮弱分类器错误分类样本的权值，而降低那些被正确分类样本的权值。于是那些没有得到正确分类的数据由于权值的加大而受到后一轮的弱分类器的更大关注。最后如何将一系列弱分类器组合成一个强分...
复制链接

扫一扫

专栏目录