第8章 AdaBoost算法

最新推荐文章于 2024-01-13 21:01:21 发布

winds_lyh

最新推荐文章于 2024-01-13 21:01:21 发布

阅读量156

点赞数

分类专栏：统计学习理论文章标签：统计学习

本文链接：https://blog.csdn.net/winds_lyh/article/details/80668166

版权

统计学习理论专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Bagging和Boosting的区别

1）样本选择上：

Bagging：训练集是在原始集中有放回选取的，从原始集中选出的各轮训练集之间是独立的.

Boosting：每一轮的训练集不变，只是训练集中每个样例在分类器中的权重发生变化.而权值是根据上一轮的分类结果进行调整.

2）样例权重：

Bagging：使用均匀取样，每个样例的权重相等

Boosting：根据错误率不断调整样例的权值，错误率越大则权重越大.

3）预测函数：

Bagging：所有预测函数的权重相等.

Boosting：每个弱分类器都有相应的权重，对于分类误差小的分类器会有更大的权重.

4）并行计算：

Bagging：各个预测函数可以并行生成

Boosting：各个预测函数只能顺序生成，因为后一个模型参数需要前一轮模型的结果

AdaBoost算法

算法1（AdaBoost）
输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中 $x_i\in \chi \subseteq R^n$ ， $y_i \in y=\{-1,+1\}$ ；弱学习算法；
输出：最终分类器 $G(x)$ 。
（1）初始化训练数据的权值分布

D 1 = (w 11, . . ., w 1 i, . . ., w 1 N) ， w 1 i = 1 N, I = 1, 2, . . ., N

$D_1=(w_{11},...,w_{1i},...,w_{1N})，w_{1i}=\frac{1}{N},I=1,2,...,N$
（2）对

m=1,2,...,M m = 1 , 2 , . . . , M $m=1,2,...,M$
（a）使用具有权值分布

Dm D m $D_m$ 的训练数据集学习，得到基本分类器

G m (x) : χ \to {- 1, + 1}

$G_m(x):\chi \to \{-1,+1\}$
（b）计算

Gm(x) G m ( x ) $G_m(x)$ 在训练数据集上的分类误差率

e m = P (G m (x i) \neq y i) = \sum i = 1 N w m i I (G m (x i) \neq y i) (1)

$e_m=P(G_m(x_i) \ne y_i)=\sum_{i=1}^Nw_{mi}I(G_m(x_i) \ne y_i) \tag{1}$
（c）计算

Gm(x) G m ( x ) $G_m(x)$ 的系数

α m = 1 2 log 1 - e m e m (2)

$\alpha_m = \frac{1}{2}\log \frac{1-e_m}{e_m} \tag{2}$ 这里的对数是自然对数。
（d）更新训练数据集的权值分布

D m + 1 = (w m + 1, 1, . . ., w m + 1, i, w m + 1, N) (3)

$D_{m+1}=(w_{m+1,1},...,w_{m+1,i},w_{m+1,N}) \tag{3}$

w m + 1, i = w m , i Z m exp (- α m y i G m (x i)) (4)

$w_{m+1,i}=\frac{w_{m,i}}{Z_m}\exp(-\alpha_my_iG_m(x_i)) \tag{4}$ 这里，

Zm Z m $Z_m$ 是规划化因子

Z m = \sum i = 1 N w m, 1 exp (- α m y i G m (x i)) (5)

$Z_m = \sum_{i=1}^N w_{m,1}\exp(-\alpha_my_iG_m(x_i)) \tag{5}$ 它使

Dm+1 D m + 1 $D_{m+1}$ 成为一个概率分布。
（3）构建基本分类器的线性组合

f (x) = \sum m = 1 M α m G m (x) (6)

$f(x)=\sum_{m=1}^M\alpha_mG_m(x) \tag{6}$ 得到最终分类器

G (x) = s i g n (f (x)) = s i g n (\sum m = 1 M α m G m (x)) (7)

$G(x)=sign(f(x))=sign\left(\sum_{m=1}^M\alpha_mG_m(x)\right)\tag{7}$
定理8.1 （AdaBoost的训练误差界） AdaBoost算法最终分类器的训练误差界为

1 N \sum i = 1 N I (G (x i) \neq y i) \leq 1 N \sum i exp (- y i f (x i)) = \prod m Z m (9)

$\frac{1}{N}\sum_{i=1}^{N}I(G(x_i) \ne y_i) \leq \frac{1}{N} \sum{i}\exp(-y_if(x_i))=\prod_{m}Z_m \tag{9}$ 这里，

G(x),f(x) G ( x ) , f ( x ) $G(x),f(x)$ 和

Zm Z m $Z_m$ 分别由式（7），（6），（5）给出。

前向分布算法

算法2（前向分布算法）
输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ；损失函数 $L(y,f(x))$ ；基函数集 ${b(x;\gamma)}$ ；
输出：加法模型 $f(x)$
（1）初始化 $f_0(x)=0$
（2）对 $m=1,2,...,M$
（a）极小化损失函数

(β m, γ m) = a r g min β, γ \sum i = 1 N L (y i, f m - 1 (x i) + β b (x i; γ)) (10)

$(\beta_m,\gamma_m)=arg\min_{\beta,\gamma}\sum_{i=1}{N}L(y_i,f_{m-1}(x_i)+\beta b(x_i;\gamma)) \tag{10}$ 得到参数

βm,γm β m , γ m $\beta_m,\gamma_m$
（b）更新

f m (x) = f m - 1 (x) + β m b (x; γ m) (11)

$f_m(x)=f_{m-1}(x)+\beta_mb(x;\gamma_m) \tag{11}$
（3）得到加法模型

f (x) = f M (x) = \sum m = 1 M β m b (x; γ m) (12)

$f(x)=f_M(x)=\sum_{m=1}^M\beta_mb(x;\gamma_m) \tag{12}$
这样，前向分步算法将同时求解从

m=1 m = 1 $m=1$ 到

M M $M$ 所有参数

β_{m}, γ_{m}

$\beta_m,\gamma_m$ 的优化问题简化为逐次求解各个

βm,γm β m , γ m $\beta_m,\gamma_m$ 的优化问题.

提升树

提升树是以分类树或回归树为基本分类器的提升方法。

提升树模型

提升方法实际采用加法模型（即基函数的线性组合）与前向分步算法。以决策树为基函数的提升方法称为提升树（boosting tree）。对分类问题决策树是二叉分类树，对回归问题决策树是二叉回归树。提升树模型可以表示为决策树的加法模型：

f M (x) = \sum m = 1 M T (x; Θ m) (13)

$f_M(x)=\sum_{m=1}^MT(x;\Theta_m) \tag{13}$ 其中，

T(x;Θm) T ( x ; Θ m ) $T(x;\Theta_m)$ 表示决策树；

Θm Θ m $\Theta_m$ 为决策树的参数；

M M $M$ 为树的个数。
算法3 （回归问题的提升树算法）
输入：训练数据集

T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}

$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中

xi∈χ⊆Rn x i ∈ χ ⊆ R n $x_i\in \chi \subseteq R^n$ ，

yi∈y⊆R y i ∈ y ⊆ R $y_i \in y\subseteq R$ ；
输出：提升树

fM(x) f M ( x ) $f_M(x)$
（1）初始化

f0(x)=0 f 0 ( x ) = 0 $f_0(x)=0$
（2）对

m=1,2,...,M m = 1 , 2 , . . . , M $m=1,2,...,M$
（a）计算残差

r m i = y i - f m - 1 (x i), i = 1, 2, . . ., N

$r_{mi}=y_i-f_{m-1}(x_i),i=1,2,...,N$
（b）拟合残差

r m i

$r_{mi}$ 学习一个回归树，得到

T(x,Θm) T ( x , Θ m ) $T(x,\Theta_m)$
（c）更新

fm(x)=fm−1(x)+T(x;Θm) f m ( x ) = f m − 1 ( x ) + T ( x ; Θ m ) $f_m(x)=f_{m-1}(x)+T(x;\Theta_m)$
（3）得到回归问题提升树

f M (x) = \sum m = 1 M T (x; Θ m)

$f_M(x)=\sum_{m=1}^MT(x;\Theta_m)$

梯度提升

提升树利用加法模型与前向分步算法实现学习的优化过程。当损失函数是平方损失和指数损失函数时，每一步优化是很简单的，但对于一般损失函数而言，可以利用梯度提升算法（gradient boosting）。这是利用最速下降法的近似方法，其关键是利用损失函数的负梯度在当前模型的值

- [\partial L ( y , f ( x i ) ) \partial f ( x i )] f (x) = f m - 1 (x)

$-\left[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}\right]_{f(x)=f_{m-1}(x)}$ 作为回归问题提升树算法中的残差的近似值，拟合一个回归树。
算法4（梯度提升算法）
输入：训练数据集

T={(x1,y1),(x2,y2),...,(xN,yN)} T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ，其中

xi∈χ⊆Rn x i ∈ χ ⊆ R n $x_i\in \chi \subseteq R^n$ ，

yi∈y⊆R y i ∈ y ⊆ R $y_i \in y\subseteq R$ ；损失函数L(y,f(x))；
输出：回归树

f^(x) f ^ ( x ) $\hat f(x)$ .
(1) 初始化

f 0 (x) = a r g min c \sum i = 1 N L (y i, c)

$f_0(x)=arg \min_c \sum_{i=1}^{N}L(y_i,c)$
(2)对

m=1,2,...,M m = 1 , 2 , . . . , M $m=1,2,...,M$
(a)对

i=1,2,...,N i = 1 , 2 , . . . , N $i=1,2,...,N$ ，计算

r m i = - [\partial L ( y , f ( x i ) ) \partial f ( x i )] f (x) = f m - 1 (x)

$r_{mi}=-\left[\frac{\partial L(y,f(x_i))}{\partial f(x_i)}\right]_{f(x)=f_{m-1}(x)}$
(b)对

rmi r m i $r_{mi}$ 拟合一个回归树，得到第

m m $m$ 颗树的叶结点区域

R_{m j}, j = 1, 2, . . ., J

$R_{mj},j=1,2,...,J$
(c)对

j=1,2,...,J j = 1 , 2 , . . . , J $j=1,2,...,J$ ，计算

c m j = a r g min c \sum x i \in R m j L (y i, f m - 1 (x i) + c)

$c_{mj}=arg\min_c\sum_{x_i \in R_{mj}}L(y_i,f_{m-1}(x_i)+c)$
(d)更新

fm(x)=fm−1(x)+∑Jj=1cmjI(X∈Rmj) f m ( x ) = f m − 1 ( x ) + ∑ j = 1 J c m j I ( X ∈ R m j ) $f_m(x)=f_{m-1}(x)+\sum_{j=1}^J c_{mj}I(X \in R_{mj})$
(3)得到回归树

f^(x) = f M (x) = \sum m = 1 M \sum j = 1 J c m j I (X \in R m j)

$\hat f(x)=f_M(x)=\sum_{m=1}^M\sum_{j=1}^J c_{mj}I(X \in R_{mj})$
算法第1步初始化，估计使损失函数极小化的常数值，它是只有一个根结点的树。第2（a）步计算损失函数的负梯度在当前模型的值，将它作为残差的估计。对于平方损失函数，它就是通常所说的残差；对于一般损失函数，它就是残差的近似值。第2(b)估计回归树叶结点区域，以拟合残差的近似值。第2(c)步更新回归树。第3步得到输出的最终模型

f^(x) f ^ ( x ) $\hat f(x)$