统计学习方法——提升方法（一）

最新推荐文章于 2022-01-19 10:59:44 发布

你的名字5686

最新推荐文章于 2022-01-19 10:59:44 发布

阅读量306

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/wk19951125/article/details/89185596

版权

机器学习专栏收录该内容

29 篇文章 1 订阅

订阅专栏

统计学习方法——提升方法

提升方法（一）
- AdaBoost算法

提升方法（一）

提升方法是一种常用的统计学习方法，通过改变训练样本的权重，学习多个分类器，将这些分类器进行线性组合，提高分类性能。

AdaBoost算法

提升算法的基本思路

思想
三个臭皮匠顶个诸葛亮。
强可学习
在概率近似正确（PAC）学习的框架中，一个概念（一个类），如果存在一个多项式的学习算法能够学习它，并且准确率高，就称这个概念是强可学习的。
弱可学习
一个概念，如果存在一个多项式的学习算法能够学习它，学习的正确率仅比随机猜测略好，那么就称这个概念是弱可学习的。

在PAC框架下，一个概念是强可学习的充要条件是这个概念是弱可学习的。

AdaBoost算法

输入：训练数据集 $T=\left\{ {\left( {{x_1},{y_1}} \right),\left( {{x_2},{y_2}} \right), \cdots ,\left( {{x_N},{y_N}} \right)} \right\}$ ，其中 $x_i\in \mathcal X \subseteq {R^n}，y_i\in \mathcal Y=\left\{ { - 1, + 1} \right\}$ ，弱学习算法
输出：最终分类器 $G\left(x\right)$
过程
- 初始化训练数据的权值分布
  ${D_1} = \left( {{w_{11}}, \cdots ,{w_{1i}}, \cdots ,{w_{1N}}} \right),{w_{1i}} = \frac{1}{N},i = 1,2, \cdots ,N$
  假设训练数据集具有均匀的权值分布，即每个训练样本在基本分类器的学习中作用相同，保证能在原始数据上学习基本分类器 $G_1\left(x\right)$ 。
- 对 $m=1,2,\cdots,M$
  反复学习基本分类器，共执行 $M$ 轮。
  - 使用具有权值分布 $D_m$ 的训练数据集学习，得到基本分类器：
    ${G_m}\left( x \right):\mathcal X \to \left\{ { - 1, + 1} \right\}$
    使用当前分布 $D_m$ 加权后的训练集学习基本分类器 $G_m\left(x\right)$
  - 计算 ${G_m}\left( x \right)$ 在训练数据集上的分类误差率：
    ${e_m} = P\left( {{G_m}\left( {{x_i}} \right) \ne {y_i}} \right) = \sum\limits_{i = 1}^N {{w_{mi}}I\left( {{G_m}\left( {{x_i}} \right) \ne {y_i}} \right)}$
    其中 $w_{mi}$ 为第 $m$ 轮中第 $i$ 个实例的权值。
    计算分类器 $G_m\left(x\right)$ 在加权训练数据集上的分类误差率。
  - 计算 ${G_m}\left( x \right)$ 的系数
    ${\alpha _m} = \frac{1}{2}\log \frac{{1 - {e_m}}}{{{e_m}}}$
    这里的对数为自然对数。
    计算分类器 ${G_m}\left( x \right)$ 在最终分类器中的重要性。
  - 更新训练数据集的权值分布
    ${D_{m + 1}} = \left( {{w_{m + 1,1}}, \cdots ,{w_{m + 1,i}}, \cdots {w_{m + 1,N}}} \right)$
    ${w_{m + 1,i}} = \frac{{{w_{mi}}}}{{{Z_m}}}\exp \left( { - {\alpha _m}{y_i}{G_m}\left( {{x_i}} \right)} \right),i = 1,2, \cdots ,N$
    这里， $Z_m$ 是规范化因子
    ${Z_m} = \sum\limits_{i = 1}^N {{w_{mi}}\exp \left( { - {\alpha _m}{y_i}{G_m}\left( {{x_i}} \right)} \right)}$
    它使 $D_{m+1}$ 成为一个概率分布。
    更新训练数据的权值分布：
    ${w_{m + 1,i}} = \left\{ \begin{array}{l} \frac{{{w_{mi}}}}{{{Z_m}}}{e^{ - {\alpha _m}}},{G_m}\left( {{x_i}} \right) = {y_i}\\ \frac{{{w_{mi}}}}{{{Z_m}}}{e^{{\alpha _m}}},{G_m}\left( {{x_i}} \right) \ne {y_i} \end{array} \right.$
    误分类的样本权值扩大。
- 构建基本分类器的线性组合
  $f\left( x \right) = \sum\limits_{m = 1}^M {{\alpha _m}{G_m}\left( x \right)}$
  得到最终分类器：
  $G\left( x \right) = sign\left( {f\left( x \right)} \right) = sign\left( {\sum\limits_{m = 1}^M {{\alpha _m}{G_m}\left( x \right)} } \right)$
  线性组合 $f\left(x\right)$ 实现 $M$ 个分类器的加权表决。

AdaBoost算例

给定如下所示的训练数据集，假设弱分类器由 $x > v$ 或 $x < v$ 产生，其阈值 $v$ 使该分类器在训练数据集上分类误差率最低。

序号	1	2	3	4	5	6	7	8	9	10
$x$	0	1	2	3	4	5	6	7	8	9
$y$	1	1	1	-1	-1	-1	1	1	1	-1

解：

初始化数据权值分布（ $m = 1$ ）：
$D_1=\left(0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1\right)$
- 在 $D_1$ 的训练集上阈值 $v$ 为 $2.5$ 时分类误差率最低，基本分类器为：
  ${G_1}\left( x \right) = \left\{ \begin{array}{l} 1,\quad x < 2.5\\ {- 1},\;x > 2.5 \end{array} \right.$
- ${G_1}\left( x \right)$ 的训练误差率为： $e_1=\left( {{G_1}\left( {{x_i}} \right) \ne {y_i}} \right)=0.3$
- 计算 ${G_1}\left( x \right)$ 的系数： ${\alpha _1} = \frac{1}{2}\log \frac{{1 - {e_1}}}{{{e_1}}}=0.4236$
- 更新权重分布：
  ${w_{2i}} = \frac{{{w_{1i}}}}{{{Z_1}}}\exp \left( { - {\alpha _1}{y_i}{G_1}\left( {{x_i}} \right)} \right),i = 1,2, \cdots ,10$
  ${Z_1} = \sum\limits_{i = 1}^N {{w_{1i}}\exp \left( { - {\alpha _1}{y_i}{G_1}\left( {{x_i}} \right)} \right)}$
  $D_2=\left(0.0715,0.0715,0.0715,0.0715,0.0715,0.0715,0.1666,0.1666,0.1666,0.0715\right)$
  $f_1\left(x\right)=0.4236G_1\left(x\right)$
计算 $m = 2$ 时
计算 $m = 3$ 时
此时：
$f_3\left(x\right)=0.4236G_1\left(x\right)+0.6496G_2\left(x\right)+0.7514G_3\left(x\right)$
$sign\left[f_3\left(x\right)\right]$ 在训练集上误分类点数为 $0$ 。
最终分类器：
$G\left(x\right)=sign\left[f_3\left(x\right)\right]=sign\left[0.4236G_1\left(x\right)+0.6496G_2\left(x\right)+0.7514G_3\left(x\right)\right]$