boosting－adaboost、GBDT、xgboost、lightGBM

最新推荐文章于 2024-05-23 17:48:45 发布

SimpleIsBetter

最新推荐文章于 2024-05-23 17:48:45 发布

阅读量1.5k

点赞数 1

分类专栏： machine-learning 文章标签：算法

本文链接：https://blog.csdn.net/yhmabcdef/article/details/75214052

版权

machine-learning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

提升方法，是将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好。
Kearns和Valiant提出了“强可学习”和“弱可学习”的概念
强可学习：在概率近似正确学习的框架中，一个概念（一个类），如果存在一个多项式的学习算法能够学习它，并且正确率很高，这个概念被称为强可学习
弱可学习：一个概念，如果一个多项式学习算法能够学习它，学习的正确率仅比随机猜测略好
Schapore后来证明强可学习与弱可学习是等价的

对于分类问题而言，给定训练样本集，训练弱分类器比训练强分类器容易得多，提升方法就是从弱学习算法出发，得到一系列弱分类器（弱而不同）并组合成强分类器

1 adaboost

大多数提升方法都是改变训练数据的概率（权值）分布，针对不同的训练数据分布调用弱学习算法的一系列弱分类器

从而，两个问题需要解答：
(1)，每一轮如何改变训练数据的权值分布？
adaboost将分类作物的样本权值提高，降低分类正确的样本权值，从而使分类错误的样本得到更大的关注
(2)，如何将弱分类器组合成一个强分类器？
adaboost采用加权多数表决方法

1.1 adaboost算法描述

adaboost如何将这些想法自然且有效地实现在一种算法里
具体算法描述
给定二分类训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\}$
其中每个样本点由实例和标记构成，实例 $x_{i}\in\chi\subseteq R^{n}$ ，标记 $y_{i}\in y=\{-1, +1\}$
$\chi$ 是实例空间， $y$ 是标记集合
算法（Adaboost）：
输入：训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\}$ ，其中 $x_{i}\in\chi\subseteq R^{n}$ ， $y_{i}\in y=\{-1, +1\}$
输出：最终分类器 $G(x)$
（1）初始化训练数据的权值分布

D 1 = (ω 11, ω 12, . . ., ω 1 N), ω 1 i = 1 N, i = 1, 2, . . ., N (1.1)

$D_{1}=(\omega _{11},\omega _{12},...,\omega _{1N}), \omega _{1i}=\frac{1}{N},i=1,2,...,N \tag{1.1}$
（2）对

m=1,2,...,N $m=1,2,...,N$
(a)适用具有权值分布的

Dm $D_{m}$ 的训练数据集学习，得到基本分类器

Gm(x):χ→{−1,+1} $G_{m}(x):\chi \to \{-1, +1\}$
(b)计算

Gm(x) $G_{m}(x)$ 在训练数据集上的分类误差率

e m = P (G m (x i \neq y i) = \sum i = 1 N ω m i I (G m (x i \neq y i) (1.2)

$e_{m}=P(G_{m}(x_{i}\ne y_{i})=\sum_{i=1}^{N}\omega_{mi}I(G_{m}(x_{i}\ne y_{i})\tag{1.2}$
(c)计算

Gm(x) $G_{m}(x)$ 的系数

α m = 1 2 ln 1 - e m e m (1.3)

$\alpha_{m}=\frac{1}{2}\ln\frac{1-e_m}{e_m}\tag{1.3}$
(d)更新训练数据集的权值分布

D m + 1 = (ω m 1, ω m 2, . . ., ω m N)

$D_{m+1}=(\omega _{m1},\omega _{m2},...,\omega _{mN})$

ω m + 1, i = ω m i Z m exp (- α m y i G m (x)) (1.4)

$\omega_{m+1,i}=\frac{\omega_{mi}}{Z_{m}}\exp(-\alpha_{m}y_{i}G_{m}(x))\tag{1.4}$
其中

Zm $Z_{m}$ 是规范化因子

Z m = \sum i = 1 N ω m i exp (- α m y i G m (x))

$Z_{m}=\sum_{i=1}{N}\omega_{mi}\exp(-\alpha_{m}y_{i}G_{m}(x))$
使得

Dm+1 $D_{m+1}$ 成为一个概率分布
（3）构建分类器的线性组合

f (x) = \sum m = 1 M α m G m (x)

$f(x)=\sum_{m=1}^{M}\alpha_{m}G_{m}(x)$
得到最终分类器

G (x) = s i g n (f (x)) = s i g n (\sum m = 1 M α m G m (x))

$G(x)=sign(f(x))=sign(\sum_{m=1}^{M}\alpha_{m}G_{m}(x))$

1.2 adaboost算法说明

算法说明：
（1）假设训练数据机在初始情况下具有均匀的权值分布，在此基础上学习基本分类器 $G_{1}(x)$
（2）Adaboost反复学习基本分类器，在每一轮 $m=1,2,...,M$ 顺次执行：
(a)适用当前分布 $D_{m}$ 加权的训练数据集，学习基本分类器G_{m}(x)
(b)计算基本分类器 $G_{m}(x)$ 在加权训练数据集上的分类误差率：

e m = P (G m (x i \neq y i)) = \sum G m (x i ） \neq y i ω m i

$e_{m}=P(G_{m}(x_{i}\ne y_{i}))=\sum_{G_{m}(x_{i}）\ne y_{i}}\omega_{mi}$
可以看出数据权值分布

Dm $D_{m}$ 与基本分类器

Gm(x) $G_{m}(x)$ 的分类误差率的关系
(c)计算基本分类器

Gm(x) $G_{m}(x)$ 的系数

αm $\alpha_{m}$ ,

αm $\alpha_{m}$ 表示

Gm(x) $G_{m}(x)$ 在最终分类器中的重要性，
由式(1.3)可知，当

em≤12 $e_{m}\le\frac{1}{2}$ 时，

αm≥0 $\alpha_{m}\ge0$ ，并且

αm $\alpha_{m}$ 随着

em $e_{m}$ 的减小而增大，所以分类误差率越小的基本分类器在最终分类器中的作用越大
(d)更新训练数据集的权值分布为下一轮训练做准备，式(1.4)可以改写成：

ω m + 1, i = {ω m i Z m e - α m ω m i Z m e α m G m (x) = y i G m (x) \neq y i

$\begin{equation} \omega_{m+1,i}= \begin{cases} \frac{\omega_{mi}}{Z_{m}}e^{-\alpha_{m}} &{G_{m}(x)=y_{i}}\\ \frac{\omega_{mi}}{Z_{m}}e^{\alpha_{m}} &{G_{m}(x)\ne y_{i}} \end{cases} \end{equation}$
由上式可知，被分类器

Gm(x) $G_{m}(x)$ 误分类样本的权值得以扩大，而被正确分类样本的权值却得以缩小，两相比较，误分类样本的权值被放大

e2αm=em1−em $e^{2\alpha_{m}}=\frac{e_{m}}{1-e_{m}}$ 倍，误分类样本在下一轮学习中会起更大的作用
（3）线性组合

f(x) ${f(x)}$ 实现

M $M$ 个基本分类器的加权表决，系数

αm $\alpha_{m}$ 表示了基本分类器

Gm(x) $G_{m}(x)$ 的中言行，这里

αm $\alpha_{m}$ 之和并不为1

1.3 adaboost算法的另一个解释

adaboost算法的另一个解释，可以认为该模型是加法模型，损失函数为指数函数，学习算法为前向分布算法的二分类学习算法
此处不再详细说明，具体可查阅相关资料

1.4 总结

总结：Adaboost的两个特点：
(1)，不改变训练数据，而不断改变训练数据的权值分布，使得训练数据在基本分类器的学习中起不同的作用
(2)，利用基本分类器的线性组合构建最终分类器， ${f(x)}$ 的符号决定实例 $x$ 的类， ${f(x)}$ 的绝对值表示分类的确信度。

2 GBDT

提升树是以分类树或者回归树作为基本分类器的提升方法，提升树被认为是统计学习中性能最好的方法之一
提升方法采用加法模型（基函数的线性组合）与前向分布算法，以决策树为基函数的提升方法成为提升树，提升树模型可以表示为

f M (x) = \sum m = 1 M T (x, Θ m)

$f_{M}(x)=\sum_{m=1}^{M}T(x,\Theta_{m})$
其中，

T(x,Θ) $T(x,\Theta)$ 表示决策树，

Θm $\Theta_{m}$ 为决策树参数，

M $M$ 为树的个数
对于分类问题：决策树是二叉分类树，对于回归问题：决策树是二叉回归树

2.1 GBDT算法

对于训练数据集训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\}$
(1) $f_{0}(x)=0\tag{2.1}$
(2)第 $m$ 步的模型由以下得出
(a) $f_{m}(x)=f_{m-1}(x)+T(x;\Theta_{m})\tag{2.2}$
(b) $\hat{\Theta}_{m}=arg\min_{\Theta_{m}}\sum_{i=1}^{N}L(y_{i},f_{m-1}(x)+T(x;\Theta_{m})\tag{2.3}$
(3) $f_{M}(x)=\sum_{m=1}^{M}T(x;\Theta_{m})\tag{2.4}$
不同问题的GBDT算法在于损失函数不同

2.1.1 二类分类问题：指数损失函数

算法与1.3描述类似，只是将Adaboost算法的基本分类器限定为二类分类树即可，这时候的提升树是Adaboost的特例

2.1.2 回归问题：平方误差损失函数

训练数据集 $T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\}$ ，其中 $x_{i}\in\chi\subseteq R^{n}$ ， $\chi$ 为输入空间， $y_{i}\in y\in R$ ， $y$ 为输出空间
在前向分布算法的第 $m$ 步，给定 $f_{m-1}(x)$ ，需要求解
$\hat{\Theta}_{m}=arg\min_{\Theta_{m}}\sum_{i=1}^{N}L(y_{i},f_{m-1}(x)+T(;,\Theta_{m})$
如果采用平方误差损失函数：

L (y, f (x)) = (y - f (x)) 2

$L(y,f(x))=(y-f(x))^2$
损失变为：

L (y i, f m - 1 (x) + T (x i; Θ m) = [y i - f m - 1 (x) - T (x i, Θ m] 2 = [r - T (x i; Θ m] 2

$L(y_{i},f_{m-1}(x)+T(x_{i};\Theta_{m})=[y_{i}-f_{m-1}(x)-T(x_{i},\Theta_{m}]^{2}=[r-T(x_{i};\Theta_{m}]^{2}$
其中

r=y−fm−1(x) $r=y-f_{m-1}(x)$ 为当前模型和拟合数据的残差
从而回归问题的GBDT算法描述如下
输入：

T={(x1,y1),(x2,y2),...,(xN,yN)} $T=\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\}$ ，其中

xi∈χ⊆Rn $x_{i}\in\chi\subseteq R^{n}$ ，

χ $\chi$ 为输入空间，

yi∈y∈R $y_{i}\in y\in R$ ，

y $y$ 为输出空间
输出：提升树f_{M}(x)
(1)初始化

f0(x)=0 $f_{0}(x)=0$
(2)对

m=1,2,...,M $m=1,2,...,M$
(a)计算残差：

rmi=yi−fm−1(xi),i=1,2,...,N $r_{mi}=y_{i}-f_{m-1}(x_{i}),\quad i=1,2,...,N$
(b)拟合残差学习得到一个回归树：

T(x;Θm) $T(x;\Theta_{m})$
(c)更新

fm(x)=fm−1(x)+T(x;Θm) $f_{m}(x)=f_{m-1}(x)+T(x;\Theta_{m})$
(3)得到回归问题提升树

fM(x)=∑Mm=1T(x;Θm) $f_{M}(x)=\sum_{m=1}^{M}T(x;\Theta_{m})$

2.1.3 一般损失函数的一般决策问题

损失函数为平方损失、指数损失时，每一步的优化都很简单，但对一般损失函数而言，每一步的优化并不简单，对此，Freaiman提出了梯度提升算法，本质时利用最速下降的近似方法，
核心是利用损失函数负梯度在当前模型的值

- [\partial L ( y , f ( x i ) ) \partial f ( x i )] f (x) = f m - 1 (x)

$-[\frac{\partial{L(y,f(x_{i}))}}{\partial{f(x_{i})}}]_{f(x)={f_{m-1}(x)}}$
作为回归问题提升树算法中的残差的近似值，拟合回归树。

3 XGBOOST

XGBOOST同样采用加性模型与前向分布算法，XGBOOST采用的基本模型为回归决策树

3.1 损失函数

训练数据集 $D=\{(x_{i},y_{i})\}\quad(|D|=n,x_{i}\in R^{m},y_{i}\in R)$ ，表示样本数量为 $n$ ，特征数量为 $m$ ，加性模型预测样本 $x_{i}$

y ̂ i = ϕ (x i) = \sum k = 1 K f k (x i), f k \in F (3.1)

$\hat{y}_{i}=\phi(x_{i})=\sum_{k=1}^{K}f_{k}(x_{i}), \quad f_{k}\in F\tag{3.1}$
其中

F={f(x)=ωq(x)}(q:Rm→T,ω∈RT) $F=\{f(x)=\omega_{q}(x)\}\quad(q:\quad R^{m}\to T,\omega\in R^{T})$ 表示回归树空间，

q $q$ 表示样本到叶子节点序号的映射，

T $T$ 表示树中叶子节点的个数，

ω $\omega$ 表示叶子节点权重，与分类树不同的是，回归树在每个叶子节点都有一个连续的score。
XGBBOST的目标损失函数为：

L (ϕ) = \sum i (l (y ̂ i, y i)) + \sum k Ω (f k) (3.2)

$L(\phi)=\sum_{i}(l(\hat{y}_{i},y{i}))+\sum_{k}\Omega(f_{k})\tag{3.2}$
其中

Ω(f)=γT+12λ||ω||2 $\Omega(f)=\gamma T+\frac{1}{2}\lambda||\omega||^{2}$ 表示正则化项

3.2 梯度提升

按照加性模型思想，式(3.2)可以表示为

L t = \sum t = 1 n l (y i, y ̂ t - 1 i + f t (x i)) + Ω (f t) (3.3)

$L^{t}=\sum_{t=1}^{n}l(y_{i},\hat{y}_{i}^{t-1}+f_{t}(x_{i}))+\Omega(f_{t})\tag{3.3}$
按照taylor展开原理

L (t) ≃ \sum i = 1 n [l (y i, y ̂ t - 1 i) + g i f t (x i) + 1 2 h i f 2 t (x i)] + Ω (f t) (3.4)

$L^{(t)}\simeq\sum_{i=1}^{n}[l(y_{i},\hat{y}_{i}^{t-1})+g_{i}f_{t}(x_{i})+\frac{1}{2}h_{i}f_{t}^{2}(x_{i})]+\Omega(f_{t})\tag{3.4}$
其中

g i = \partial l ( y i , y ̂ t - 1 i ) \partial y ̂ t - 1 i

$g_{i}=\frac{\partial l(y_{i},\hat{y}_{i}^{t-1})}{\partial \hat{y}_{i}^{t-1}}$

h i = \partial 2 l ( y i , y ̂ t - 1 i ) \partial y ̂ t - 1 i

$h_{i}=\frac{\partial^{2} l(y_{i},\hat{y}_{i}^{t-1})}{\partial \hat{y}_{i}^{t-1}}$
由于希望损失函数最小，去除式(3.4)中的常数项

L ̃ (t) = \sum i = 1 n [g i f t (x i) + 1 2 h i f 2 t (x i)] + Ω (f t) (3.5)

$\tilde{L}^{(t)}=\sum_{i=1}^{n}[g_{i}f_{t}(x_{i})+\frac{1}{2}h_{i}f_{t}^{2}(x_{i})]+\Omega(f_{t})\tag{3.5}$
对于决策树

ft(xi) $f_{t}(x_{i})$ ，定义

Ij={i|q(xi)=j} $I_{j}=\{i|q(x_{i})=j\}$ 表示叶子节点

j $j$ 中的样本集合，从而

L ̃ (t) = \sum i = 1 n [g i f t (x i) + 1 2 h i f 2 t (x i)] + γ T + 1 2 λ \sum j = 1 T ω 2 j = \sum j = 1 T [(\sum i \in I j g i) ω j + 1 2 (\sum i \in I j h i + λ) w 2 j] + γ T (3.6)

$\begin{equation} \begin{aligned} \tilde{L}^{(t)}&=\sum_{i=1}^{n}[g_{i}f_{t}(x_{i})+\frac{1}{2}h_{i}f_{t}^{2}(x_{i})]+\gamma T+\frac{1}{2}\lambda\sum_{j=1}^{T}\omega_{j}^{2}\\ &=\sum_{j=1}^{T}[(\sum_{i\in I_{j}}g_{i})\omega_{j}+\frac{1}{2}(\sum_{i\in I_{j}}h_{i}+\lambda)w_{j}^{2}]+\gamma T\tag{3.6} \end{aligned} \end{equation}$
式(3.6)取最小时

ω * j = - \sum i \in I j g i \sum i \in I j h i + λ (3.7)

$\omega_{j}^{*}=-\frac{\sum_{i\in I_{j}}g_{i}}{\sum_{i\in I_{j}h_{i}}+\lambda}\tag{3.7}$
代入式(3.6)得到

L ̃ (t) (q) = - 1 2 \sum j = 1 T ( \sum i \in I j g i ) 2 \sum i \in I j h i + λ + γ T

$\tilde{L}^{(t)}(q)=-\frac{1}{2}\sum_{j=1}^{T}\frac{(\sum_{i\in I_{j}}g_{i})^2}{\sum_{i\in I_{j}}h_{i}+\lambda}+\gamma T$
上式可以衡量一颗树结构的损失函数，期望损失函数越小越好，但是，树的生长过程中，不可能遍历所有可能的树结构，所以一个贪心算法是从一个叶子节点开始不断添加分支（也就是节点分裂），期望不断降低损失函数
在某结点分裂的时候，损失函数的减小值可以表示为

L s p l i t = 1 2 [( \sum i \in I L g i ) 2 \sum i \in I L h i + λ + ( \sum i \in I R g i ) 2 \sum i \in I R h i + λ - ( \sum i \in I g i ) 2 \sum i \in I h i + λ] - γ (3.8)

$L_{split}=\frac{1}{2}[\frac{(\sum_{i\in I_{L}}g_{i})^2}{\sum_{i\in I_{L}}h_{i}+\lambda}+\frac{(\sum_{i\in I_{R}}g_{i})^2}{\sum_{i\in I_{R}}h_{i}+\lambda}-\frac{(\sum_{i\in I}g_{i})^2}{\sum_{i\in {I}}h_{i}+\lambda}]-\gamma\tag{3.8}$
其中，

IL $I_{L}$ 表示分裂后的左孩子结点的样本集合，

IR $I_{R}$ 表示分裂后的右孩子结点的样本集合，

I=IL∪IR $I=I_{L}\cup I_{R}$
式(3.8)经常用作确定分裂候选位置

3.3 分裂算法

3.3.1 精准的贪心分裂算法

输入： $I$ 表示当前结点的样本集合
输入： $d$ 表示特征维度
$gain\leftarrow 0$
$G\leftarrow\sum_{i\in I}g_{i}\quad H\leftarrow\sum_{i\in I}h_{i}$
for $k=1$ to $m$ do
$\quad G_{L}\leftarrow 0,H_{L}\leftarrow 0$
$\quad$ for $j$ in $sorted(I,by\space X_{jk})$ do
$\quad\quad G_{L}\leftarrow G_{L}+g_{j},H_{L}\leftarrow H_{L}+h_{j}$
$\quad\quad G_{R}\leftarrow G-G_{L},H_{R}\leftarrow H-H_{L}$
$\quad\quad score\leftarrow\max(score, \frac{G_{L}^2}{H_{L}+\lambda}+ \frac{G_{R}^2}{H_{R}+\lambda}- \frac{G^2}{H+\lambda})$
$\quad$ end
end
输出：在最大score处分裂
思想：暴力遍历m个特征的所有可能分裂点

3.3.2 近似算法

暴力法因为枚举了所有可能分裂的位置，所以非常有效，但是当数据量比较大时，效率并没有那么高，尤其所有数据不能全部存入内存时
从而，提出了一种近似方法，根据特征分布选择候选的样本分裂点，基于候选的样本分裂点寻找最有分裂位置，近似算法有两种变种类型，全局寻找候选点与局部寻找候选点，全局寻找表示在最开始的时候找出所有的候选位置，在每次学习时复用；局部寻找表示每次分裂时重新计算候选位置。如果寻找的位置点足够多，全局寻找的准确率会和局部寻找相当
对于候选分割点的选择算法，有近似直方图算法，具体可参阅相关文章

3.4 缺失值处理

在机器学习实际应用场景中，训练数据集中很多特征数据是稀疏的，xgboost对这类问题的处理，在结点分裂时缺失值按照默认方向处理
分裂时，具体做法，式(3.8)中考虑缺失值划入左孩子结点、右孩子结点两种情形下的损失函数，寻找最有的分割点

3.5 系统实现

（1）xgboost对每个特征进行排序，以块的结构存储在内存中，后续迭代可以重复使用
（2）在计算不同特征的最佳分割点时，可以采用多线程并行的方式进行
（3）当内存空间不够时，xgboost如何有效利用磁盘空间，主要利用块压缩、块分片技术

3.6 xgboost vs GBDT

（1）GBDT迭代时只考虑了一阶导数，xgboost迭代时考虑了一阶、二阶导数，xgboost可以自定义损失函数，只需要一阶、二阶可导；
（2）xgboost在损失函数中添加了正则化项，防止过拟合；
（3）传统GBDT以决策树为基本分类器，xgboost还支持其他线性分类器，这时候xgboost相当于带正则化项的LR回归、线性回归；
（4）xgboost还引入了衰减(shrinkage，相当于学习速率)、列抽样，降低过拟合可能性；
（5）xgboost对于缺失值可以自动学习出分裂方向；
（6）训练事先排好序并以block的形式存储，可以并行计算，寻找特征的最佳分割点；
（7）由于底层支持容错的分布式通信框架rabit，xgboost支持分布式计算，可以运行在MPI，YARN上