XGBoost: A Scalable Tree Boosting System

最新推荐文章于 2022-04-07 20:19:38 发布

_hehe_

最新推荐文章于 2022-04-07 20:19:38 发布

阅读量3.5k

点赞数 1

分类专栏：机器学习文章标签： xgboost gbdt

本文链接：https://blog.csdn.net/wty__/article/details/52919675

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

[ 论文阅读地址 ]

1. 背景知识介绍

函数的风险

　　给定关于 $X$ 和 $Y$ 的空间，学习一个函数 $h:X\to Y$ ，函数的输入 $x \in X$ ，输出 $y \in Y$ 。要学习函数 $h$ ，需要有样本： $(x_1, y_1), \dots (x_m, y_m)$ ，其中 $x_i \in X, y_i \in Y$ ，我们的目标是学习到 $h(x_i)$ 。
　　形式化的描述如下：假定 $X$ 和 $Y$ 服从概率分布 $P(x, y)$ ，含有 $m$ 个样本的训练集 $(x_1, y_1), \dots (x_m, y_m)$ 是从分布 $P(x, y)$ 依据独立同分布原则采样得来。这里关于概率分布 $P(x, y)$ 的假设，使得我们可以对预测的不确定性进行建模，因为 $y$ 并不是关于 $x$ 的一个确定函数，而是一个随机变量，对于给定的 $x$ ，服从分布 $p(y|x)$ 。
　　同时也假设，已经有一个非负实数损失函数 $L(\hat{y}, y)$ ，这个函数度量了预测值 $\hat{y}$ 和实际值 $y$ 的偏差大小。
　　关于 $h(x)$ 的风险定义如下：

R (h) = E [L (h (x), y)] = \int L (h (x), y) d P (x, y) (1)

$\begin{align} R(h) = \mathbf{E}[L(h(x), y)] = \int L(h(x), y)dP(x, y) \end{align}$
　　学习问题的最终目标是，在固定的函数空间

H H $\mathcal{H}$ 中学习到这样的函数

h∗ h ∗ $h^*$ ，使得

R(h) R ( h ) $R(h)$ 值最小化：

h * = arg min h \in H R (h) (2)

$\begin{align} h^* = \arg \min_{h \in \mathcal{H}} R(h) \end{align}$

经验风险最小化(Empirical risk minimization)

　　通常情况，由于分布 $P(x, y)$ 是未知的，风险函数 $R(h)$ 也是未知的。因此，我们使用经验风险作为对风险函数的近似：

R e m p (h) = 1 m \sum i = 1 m L (h (x i), y i) (3)

$\begin{align} R_{emp}(h) = \frac{1}{m}\sum_{i=1}^mL(h(x_i), y_i) \end{align}$
　　经验风险最小化原则表明，我们要找的函数

h∗ h ∗ $h^*$ 应满足：

h * = arg min h \in H R e m p (h) (4)

$\begin{align} h^* = \arg \min_{h \in \mathcal{H}} R_{emp}(h) \end{align}$
　　因此，给予ERM的学习算法变成了解决如上的优化问题。

加法模型

　　加法模型定义如下：

f (x) = \sum m = 1 M β m b (x; γ m) (5)

$\begin{align} f(x) = \sum_{m=1}^M\beta_mb(x;\gamma_m) \end{align}$
　　其中，

b(x;γm) b ( x ; γ m ) $b(x; \gamma_m)$ 为基函数，

γm γ m $\gamma_m$ 为基函数的参数，

βm β m $\beta_m$ 为基函数的系数。
　　在给定训练数据及

L(y,f(x)) L ( y , f ( x ) ) $L(y, f(x))$ 的条件下，学习加法模型

f(x) f ( x ) $f(x)$ 成为经验风险极小化即损失函数极小化问题：

= min β m, γ m \sum i = 1 N L (y i, f (x i; β m, γ m)) min β m, γ m \sum i = 1 N L (y i, \sum m = 1 M β m b (x i; γ m)) (6) (7)

$\begin{align} & \min_{\beta_m, \gamma_m}\sum_{i=1}^NL\left(y_i, f(x_i; \beta_m, \gamma_m)\right)\\ = &\min_{\beta_m, \gamma_m}\sum_{i=1}^NL\left(y_i, \sum_{m=1}^M\beta_mb(x_i; \gamma_m)\right) \end{align}$

前向分布算法

　　由于对加法模型的求解是一个复杂的优化问题，因而采用前向分布算法来对加法模型进行求解。
　　前向分布算法的想法是：因为学习的是加法模型，如果能从前向后，每一步只学习一个基函数及其系数，逐步逼近优化目标函数式，那么就可以简化优化的复杂度。具体的，每步只需优化如下损失函数：

min β, γ \sum i = 1 N L (y i, β b (x i; γ)) (8)

$\begin{align} \min_{\beta, \gamma} \sum_{i=1}^NL(y_i, \beta b(x_i; \gamma)) \end{align}$
　　给定训练数据集

T={(x1,y1),(x2,y2),…,(xN,yN)} T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } $T = \{(x_1, y_1), (x_2, y_2), \dots, (x_N, y_N)\}$ ，

xi∈X⊆Rn x i ∈ X ⊆ R n $x_i \in \mathcal{X} \subseteq \mathbf{R}^n$ ，

yi∈Y={−1,+1} y i ∈ Y = { − 1 , + 1 } $y_i \in \mathcal{Y} = \{-1, +1\}$ 。损失函数

L(y,f(x)) L ( y , f ( x ) ) $L(y, f(x))$ 和基函数的集合

{b(x;γ)} { b ( x ; γ ) } $\{b(x;\gamma)\}$ ，学习加法模型

f(x) f ( x ) $f(x)$ 的前向分布算法如下：

2.提升树(Boosting tree)

提升树模型介绍

提升树模型

提升树算法

这里写图片描述

3.梯度提升（Gradient boosting）

模型介绍

梯度提升模型介绍

算法介绍

这里写图片描述

3.XGBoost

模型介绍

　　梯度提升算法中，使用了对函数的梯度来作为参数，这样就不能在使用传统的优化算法。因此，作者提出了xgboost以解决这一问题。先考虑如下的优化目标：

　　其中，

y^(t) y ^ ( t ) $\hat{y}^{(t)}$ 是第i个样本在第t轮迭代时的预测值，

ft(xi) f t ( x i ) $f_t(x_i)$ 是待求的参数。
　　这里，记

F(x)=l(yi,x) F ( x ) = l ( y i , x ) $F(x) = l(y_i, x)$ ，那么

l(yi,y^(t−1)i+ft(xi))=F(y^(t−1)i+ft(xi)) l ( y i , y ^ i ( t − 1 ) + f t ( x i ) ) = F ( y ^ i ( t − 1 ) + f t ( x i ) ) $l(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)) = F(\hat{y}_i^{(t-1)} + f_t(x_i))$ ，这里使用泰勒展开，取前三项近似得到

F(y^(t−1)i+ft(xi))≃F(y^(t−1)i)+F′(y^(t−1)i)∗ft(xi)+12F′′(y^(t−1)i)∗ft(xi)∗f2t(xi) F ( y ^ i ( t − 1 ) + f t ( x i ) ) ≃ F ( y ^ i ( t − 1 ) ) + F ′ ( y ^ i ( t − 1 ) ) ∗ f t ( x i ) + 1 2 F ″ ( y ^ i ( t − 1 ) ) ∗ f t ( x i ) ∗ f t 2 ( x i ) $F(\hat{y}_i^{(t-1)} + f_t(x_i)) \simeq F(\hat{y}_i^{(t-1)}) + F'(\hat{y}_i^{(t-1)}) * f_t(x_i) + \frac{1}{2}F''(\hat{y}_i^{(t-1)}) * f_t(x_i) * f_t^2(x_i)$ ，因此

L(t) L ( t ) $\mathcal{L}^{(t)}$ 中对函数的梯度，就转换成了

F F $F$ 函数对常数