《统计学习方法》第八章提升方法学习笔记

最新推荐文章于 2021-01-15 15:17:38 发布

常山赵匡胤

最新推荐文章于 2021-01-15 15:17:38 发布

阅读量963

点赞数

分类专栏：统计学习方法机器学习文章标签： AdaBoost 统计学习方法机器学习

本文链接：https://blog.csdn.net/wjlucc/article/details/70056772

版权

机器学习同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

统计学习方法

8 篇文章 0 订阅

订阅专栏

提升方法需要解决两个问题：一是在每一轮如何改变训练数据的权值或概率分布；二是如何将弱分类器组合成一个强分类器。对于第一个问题，AdaBoost算法是提高那些前一轮弱分类器错误分类样本的权重，而降低那些被正确分类样本的权重，这使得那些没有被正确分类的样本由于其权重的加大而受到后一轮的弱分类器的更大关注。对于第二个问题，AdaBoost采取加权多数表决的方法，即加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率大的若分类器的权值，使其在表决中起较小的作用。

一、AdaBoost算法

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ ，其中 $x_i\in \mathbf{R}^n,y_i\in\{+1,-1\}$ 。
输出：最终分类器 $G(x)$
（1）初始化训练数据的权值分布

D 1 = (w 11, \dots, w 1 i, \dots, w 1 N), w 1 i = 1 N, i = 1, 2, \dots, N

$D_1=(w_{11},\cdots,w_{1i},\cdots,w_{1N}),w_{1i}=\frac{1}{N},i=1,2,\cdots,N$
这里初始情况假设训练数据集具有均匀的权值分布。
（2）对

m=1,2,⋯,M $m=1,2,\cdots,M$ （按照以下步骤逐个训练出M个分类器，循环以下操作 $G_m(x)\to e_m\to \alpha_m\to D_{m+1}$ ）

（a）使用具有权值分布 $D_m$ 的训练数据集学习，得到基本分类器

$G m (x) : x i \to {+ 1, - 1}$ $G_m(x):x_i\to \{+1,-1\}$
（b）计算 $G_m(x)$ 在训练数据集上的分类误差率
$e m = P (G m (x i) \neq y i) = \sum i = 1 N w m i I (G m (x i) \neq y i)$ $e_m=P(G_m(x_i)\neq y_i)=\sum\limits_{i=1}^{N}{w_{mi}I(G_m(x_i)\neq y_i)}$
$w_{mi}$ 表示第m个分类器训练时用到的的第i个样本的权重，分类误差率是被 $G_m(x)$ 误分类样本的权值之和。
（c）计算 $G_m(x)$ 的系数
$α m = 1 2 log 1 - e m e m$ $\alpha_m=\frac{1}{2}\log{\frac{1-e_m}{e_m}}$
这里的对数是自然对数，当 $e_m\leq\frac{1}{2}$ 时， $\alpha_m\geq 0$ ，并且 $\alpha_m$ 随着 $e_m$ 的减小而增大，分类误差率小的基本分类器在最终分类器中的作用越大。
（d）更新训练数据集的权值分布
$D m + 1 = (w m + 1, 1, \dots, w m + 1, i, \dots, w m + 1, N) w m + 1, i = w m i Z m exp (- α m y i G m (x i)), i = 1, 2, \dots, N$ $D_{m+1}=(w_{m+1,1},\cdots,w_{m+1,i},\cdots,w_{m+1,N})\\ w_{m+1,i}=\frac{w_{mi}}{\mathbf{Z}_m}\exp{(-\alpha_my_iG_m(x_i)),i=1,2,\cdots,N}$
这里， $\mathbf{Z}_m$ 是规范化因子
$Z m = \sum i = 1 N w m i exp (- α m y i G m (x i))$ $\mathbf{Z}_m=\sum\limits_{i=1}^N{w_{mi}\exp{(-\alpha_my_iG_m(x_i))}}$
它使 $D_{m+1}$ 成为一个概率分布。不改变训练集，不断改变训练数据权重的分布，使得训练数据作用不同。