【统计学习方法】第8章提升方法

最新推荐文章于 2022-01-19 10:59:44 发布

gkm0120

最新推荐文章于 2022-01-19 10:59:44 发布

阅读量137

点赞数

分类专栏：统计学习方法文章标签： adaboost算法

本文链接：https://blog.csdn.net/weixin_45839039/article/details/113421967

版权

统计学习方法专栏收录该内容

11 篇文章 2 订阅

订阅专栏

提升（boosting）方法是一种常用的统计学习方法，应用广泛且有效。在分类问题中，它通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。

1、提升方法AdaBoost算法

AdaBoost算法：

输入：训练数据集 $\left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\}$ ，其中 $x_{i} \in \mathcal{X} \subseteq R^{n}, y_{i} \in \mathcal{Y} = \left\{ +1, -1 \right\}, i = 1, 2, \cdots, N$ ；弱学习算法
输出：分类器 $G\left(x\right)$

初始化训练数据的权值分布 $\begin{aligned} & D_{1}=\left(w_{11},w_{12},\cdots,w_{1N}\right), \quad w_{1i} = \dfrac{1}{N}, \quad i=1,2,\cdots,N\end{aligned}$
对 $m=1,2,\cdots,M$
2.1使用具有权值分布 $D_{m}$ 的训练数据集学习，得到基本分类器 $\begin{aligned} \\ & G_{m}\left(x\right): \mathcal{X} \to \left\{ -1, +1\right\} \end{aligned}$
2.2 计算 $G_{m}\left(x\right)$ 在训练数据集上的分类误差率
$\begin{aligned} \\& e_{m} = P\left(G_{m}\left(x_{i}\right) \neq y_{i}\right) \\ & = \sum_{i=1}^{N} w_{mi} I \left(G_{m}\left(x_{i}\right) \neq y_{i} \right) \end{aligned}$
2.3 计算 $G_{m} \left(x\right)$ 的系数 $\begin{aligned} \\ & \alpha_{m} = \dfrac{1}{2} \log \dfrac{1-e_{m}}{e_{m}} \end{aligned}$ 2.4 更新训练数据集的权值分布 $\begin{aligned} \\ & D_{m+1}=\left(w_{m+1,1},\cdots,w_{m+1,i},\cdots,w_{m+1,N}\right) \\ & w_{m+1,i} = \dfrac{w_{mi}}{Z_{m}} \exp \left(- \alpha_{m} y_{i} G_{m}\left(x_{i}\right)\right), \\ & \quad \quad = \left\{ \begin{aligned} \ & \dfrac{w_{mi}}{Z_{m}} \exp \left(- \alpha_{m} \right), G_{m}\left(x_{i}\right) = y_{i} \\ & \dfrac{w_{mi}}{Z_{m}} \exp \left( \alpha_{m} \right), G_{m}\left(x_{i}\right) \neq y_{i} \end{aligned} \right. \quad i=1,2,\cdots,N \end{aligned}$ 其中， $Z_{m}$ 是规范化因子 $\begin{aligned} \\ & Z_{m}＝ \sum_{i=1}^{N} w_{mi} \exp \left(- \alpha_{m} y_{i}, G_{m}\left(x_{i}\right)\right)\end{aligned}$
构建基本分类器的线性组合 $\begin{aligned} \\ & f \left( x \right) = \sum_{m=1}^{M} \alpha_{m} G_{m} \left( x \right) \end{aligned}$
得到最终分类器 $\begin{aligned} \\ & G\left(x\right) = sign\left(f\left(x\right)\right)=sign\left(\sum_{m=1}^{M} \alpha_{m} G_{m} \left( x \right)\right) \end{aligned}$

前向分布算法

加法模型 $\begin{aligned} \\ & f \left( x \right) = \sum_{m=1}^{M} \beta_{m} b\left(x;\gamma_{m}\right) \end{aligned}$ 其中， $b\left(x;\gamma_{m}\right)$ 为基函数， $\beta_{m}$ 为基函数系数， $\gamma_{m}$ 为基函数参数。

在给定训练数据及损失函数 $L\left(y,f\left(x\right)\right)$ 的条件下，学习加法模型 $f\left(x\right)$ 成为经验风险极小化问题 $\begin{aligned} \\ & \min_{\beta_{m},\gamma_{m}} \sum_{i=1}^{N} L \left( y_{i}, \sum_{m=1}^{M} \beta_{m} b\left(x_{i};\gamma_{m}\right) \right) \end{aligned}$

学习加法模型，从前向后每一步只学习一个基函数及其系数，即每步只优化 $\begin{aligned} \\ & \min_{\beta,\gamma} \sum_{i=1}^{N} L \left( y_{i}, \beta b\left(x_{i};\gamma\right) \right) \end{aligned}$

前向分布算法：

输入：训练数据集 $\left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\}$ ，损失函数 $L\left(y,f\left(x\right)\right)$ ；基函数集 $\left\{b\left(x;\gamma\right)\right\}$
输出：加法模型 $f\left(x\right)$

初始化 $f_{0}\left(x\right)=0$
对 $m=1,2,\cdots,M$
2.1 极小化损失函数 $\begin{aligned} \\ & \left(\beta_{m},\gamma_{m}\right) = \arg \min_{\beta,\gamma} \sum_{i=1}^{N} L \left( y_{i},f_{m-1} \left(x_{i}\right) + \beta b\left(x_{i};\gamma \right)\right) \end{aligned}$ 得到参数 $\beta_{m},\gamma_{m}$
2.2 更新
$\begin{aligned} \\& f_{m} \left(x\right) = f_{m-1} \left(x\right) + \beta_{m} b\left(x;\gamma_{m}\right) \end{aligned}$
得到加法模型 $\begin{aligned} \\ & f \left( x \right) = f_{M} \left( x \right) = \sum_{m=1}^{M} \beta_{m} b \left( x; \gamma_{m} \right) \end{aligned}$

提升树算法

训练数据集 $\begin{aligned} & T = \left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\} \end{aligned}$

其中， $x_{i} \in \mathcal{X} \subseteq R^{n}, y_{i} \in \mathcal{Y} \subseteq R, i = 1, 2, \cdots, N$ 。

将输入空间 $\mathcal{X}$ 划分为 $J$ 个互不相交的区域 $R_{1},R_{2},\cdots,R_{J}$ ，且在每个区域上确定输出的常量 $c_{j}$ ，则回归树 $\begin{aligned} \\& T \left(x; \varTheta\right) = \sum_{j=1}^{J} c_{j} I \left(x \in R_{j}\right) \end{aligned}$ 其中，参数 $\varTheta = \left\{ \left(R_{1}, c_{1}\right),\left(R_{2}, c_{2}\right),\cdots,\left(R_{J}, c_{J}\right) \right\}$ 表示树的区域划分和各区域上的常数。 $J$ 是回归树的负责度即叶结点个数。

回归提升树使用前向分布算法 $\begin{aligned} \\& f_{0}=0 \\ & f_{m}\left(x\right) = f_{m-1}\left(x\right) + T \left(x; \varTheta_{m}\right) \\ & f_{M} = \sum_{m=1}^{M} T \left(x; \varTheta_{m}\right) \end{aligned}$

在前向分布算法的第 $m$ 步给定当前模型 $f_{m-1}\left(x\right)$ ，模型参数 $\begin{aligned} \\& \hat \varTheta_{m} = \arg \min_{\varTheta_{m}} \sum_{i=1}^{N} L \left( y_{i}, f_{m-1}\left(x_{i}\right) + T \left( x_{i}; \varTheta_{m} \right) \right) \end{aligned}$ 得到第 $m$ 棵树的参数 $\hat \varTheta_{m}$

当采用平方误差损失函数 $\begin{aligned} & L \left( y, f_{m-1}\left(x\right)+T\left(x;\varTheta_{m}\right)\right) \\ & = \left[y-f_{m-1}\left(x\right)-T\left(x;\varTheta_{m}\right)\right]^{2} \\ & = \left[r-T\left(x;\varTheta_{m}\right)\right]^{2}\end{aligned}$ 其中， $r=y-f_{m-1}\left(x\right)$ 是当前模型拟合数据的残差。

回归提升树算法：

输入：训练数据集 $\left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\},x_{i} \in \mathcal{X} \subseteq R^{n}, y_{i} \in \mathcal{Y} \subseteq R, i = 1, 2, \cdots, N$
输出：回归提升树 $f_{M}\left(x\right)$

初始化 $f_{0}\left(x\right)=0$
对 $m=1,2,\cdots,M$
2.1 计算残差 $\begin{aligned} \\ & r_{mi}=y_{i}-f_{m-1}\left(x_{i}\right),\quad i=1,2,\cdots,N \end{aligned}$
2.2 拟合残差 $r_{mi}$ 学习一个回归树，得到 $T\left(x;\varTheta_{m}\right)$
2.3 更新 $f_{m}=f_{m-1}\left(x\right)+T\left(x;\varTheta_{m}\right)$
得到回归提升树 $\begin{aligned} \\ & f_{M} \left( x \right) = \sum_{m=1}^{M} T \left(x;\varTheta_{m}\right) \end{aligned}$

梯度提升算法：

输入：训练数据集 $\left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\},x_{i} \in \mathcal{X} \subseteq R^{n}, y_{i} \in \mathcal{Y} \subseteq R, i = 1, 2, \cdots, N$ ，损失函数 $L\left(y,f\left(x\right)\right)$
输出：回归树 $\hat f\left(x\right)$

初始化 $\begin{aligned} & f_{0}\left(x\right) = \arg \min_{c} \sum_{i=1}^{N} L \left(y_{i},c\right) \end{aligned}$
对 $m=1,2,\cdots,M$
2.1 对 $i=1,2,\cdots,N$ 计算 $\begin{aligned} \\ & r_{mi}=- \left[ \dfrac {\partial L \left(y_{i},f\left(x_{i}\right) \right)}{\partial f \left(x_{i} \right)}\right]_{f\left(x\right)=f_{m-1}\left(x\right)} \end{aligned}$
2.2 对 $r_{mi}$ 拟合回归树，得到第 $m$ 棵树的叶结点区域 $R_{mj},j=1,2,\cdots,J$
2.3 对 $j=1,2,\cdots,J$ 计算 $\begin{aligned} \\ & c_{mj}=\arg \min_{c} \sum_{x_{i} \in R_{mj}} L \left( y_{i},f_{m-1} \left(x_{i}\right)+c \right) \end{aligned}$ 2.4 更新 $f_{m}\left(x\right)= f_{m-1}\left(x\right) + \sum_{j=1}^{J} c_{mj} I \left(x \in R_{mj} \right)$
得到回归树 $\begin{aligned} \\ & \hat f \left( x \right) = f_{M} \left( x \right) = \sum_{m=1}^{M} \sum_{j=1}^{J} c_{mj} I \left( x \in R_{mj} \right) \end{aligned}$

2、概要总结

1．提升方法是将弱学习算法提升为强学习算法的统计学习方法。在分类学习中，提升方法通过反复修改训练数据的权值分布，构建一系列基本分类器（弱分类器），并将这些基本分类器线性组合，构成一个强分类器。代表性的提升方法是AdaBoost算法。

AdaBoost模型是弱分类器的线性组合：

$f(x)=\sum_{m=1}^{M} \alpha_{m} G_{m}(x)$

2．AdaBoost算法的特点是通过迭代每次学习一个基本分类器。每次迭代中，提高那些被前一轮分类器错误分类数据的权值，而降低那些被正确分类的数据的权值。最后，AdaBoost将基本分类器的线性组合作为强分类器，其中给分类误差率小的基本分类器以大的权值，给分类误差率大的基本分类器以小的权值。

3．AdaBoost的训练误差分析表明，AdaBoost的每次迭代可以减少它在训练数据集上的分类误差率，这说明了它作为提升方法的有效性。

4．AdaBoost算法的一个解释是该算法实际是前向分步算法的一个实现。在这个方法里，模型是加法模型，损失函数是指数损失，算法是前向分步算法。每一步中极小化损失函数

$\left(\beta_{m}, \gamma_{m}\right)=\arg \min _{\beta, \gamma} \sum_{i=1}^{N} L\left(y_{i}, f_{m-1}\left(x_{i}\right)+\beta b\left(x_{i} ; \gamma\right)\right)$