机器学习--XGBoost

最新推荐文章于 2023-02-25 12:35:46 发布

xiayto

最新推荐文章于 2023-02-25 12:35:46 发布

阅读量295

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/xiayto/article/details/79535083

版权

机器学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

1、模型思想

XGBoost是GBDT改良版，都是通过多个弱学习器，不断地减少残差。GBDT主要是对残差求一阶导，向负梯度的方向拟合残差，而XGBoost运用了泰勒展开，考虑到了二阶导数。

2、公式推导

每次的迭代都是前面的弱学习器组合上新的学习器，表示为：

y ̂ (t) i = y ̂ (t - 1) i + f t (x i)

$\hat{y}_i^{(t)} = \hat{y}_i^{(t-1)}+f_t(x_i)$
目标函数可以表示为：

l o s s = \sum i = 1 n l (y i, y ̂ (t - 1) i + f t (x i)) + Ω

$loss = \sum^n_{i=1}l(y_i,\hat{y}_i^{(t-1)}+f_t(x_i))+\Omega$
其中

Ω Ω $\Omega$ 是正则项，为了防止过拟合，对树的数量和叶子结点的指加入了惩罚项：

Ω = γ T + 1 2 λ \sum j = 1 T w 2 j

$\Omega = \gamma T + \frac{1}{2}\lambda\sum^T_{j=1}w_j^2$
将

l(yi,ŷ (t−1)i) l ( y i , y ^ i ( t − 1 ) ) $l(y_i,\hat{y}_i^{(t-1)})$ 看作是

x x $x$ ，

f_{t} (x_{i})

$f_t(x_i)$ 看作是

Δx Δ x $\Delta x$ ，对损失函数进行泰勒展开：

l o s s \approx \sum i = 1 N [l (y i, y ̂ (t - 1) i) + g i f t (x i) + 1 2 h i f 2 t (x i)] + Ω

$loss \approx \sum^N_{i=1} [ l(y_i,\hat{y}_i^{(t-1)}) +g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i)]+\Omega$
其中

gi g i $g_i$ 和

hi h i $h_i$ 分别是一阶导和二阶导，这个导数取决于选择什么损失函数，例如MAE，MSE。

l(yi,ŷ (t−1)i) l ( y i , y ^ i ( t − 1 ) ) $l(y_i,\hat{y}_i^{(t-1)})$ 这一项，是由前面的弱学习器组成，不会发生改变，可以看成常数项，然后损失函数可以变成：

l o s s \approx \sum i = 1 N （ g i f t (x i) + 1 2 h i f 2 t (x i)) + γ T + 1 2 λ \sum j = 1 T w 2 j

$loss \approx \sum^N_{i=1} （g_if_t(x_i)+\frac{1}{2}h_if_t^2(x_i))+\gamma T + \frac{1}{2}\lambda\sum^T_{j=1}w_j^2$
1到N是遍历样本，比较繁琐，把遍历样本转化为遍历叶子节点，损失函数变成：

l o s s \approx \sum i = 1 T [G i w i + 1 2 (H i + λ) w 2 i] + γ T

$loss \approx \sum^T_{i=1}[G_iw_i+\frac{1}{2}(H_i+\lambda)w_i^2]+\gamma T$
其中

Gi G i $G_i$ 和

Hi H i $H_i$ 分别是这个叶子节点上所有数据的loss的一阶导数和二阶导数的和。
然后目标函数对

wi w i $w_i$ 求偏导数，让偏导数为0可以解除每个树叶节点的值

wi w i $w_i$ ：

\partial l o s s \partial w i = - 1 2 \sum i = 1 T G 2 j H j + λ + γ T = 0

$\frac{\partial loss}{\partial w_i} = -\frac{1}{2}\sum^T_{i=1}\frac{G_j^2}{H_j+\lambda} + \gamma T =0$
解得：

w i = - G j H j + λ

$w_i = -\frac{G_j}{H_j+\lambda}$
回带得到损失函数是：

l o s s = - 1 2 \sum i = 1 T G 2 i H 2 i + λ + γ T

$loss = -\frac{1}{2}\sum^T_{i=1}\frac{G_i^2}{H_i^2 +\lambda} +\gamma T$
与AdaBoost不同的是，AdaBoost基分类器用的是CART决策树，分隔的标准是gini系数，XGBoost则是用这个推出来的损失函数进行分隔。
让这个损失函数下降越多越好，也就是

G2H+λ G 2 H + λ $\frac{G^2}{H+\lambda}$ 越大越好，所以XGBoost的信息增益是：

G a i n = 1 2 [G 2 L H L + λ + G 2 R H R + λ - ( G L + G R ) 2 H L + H R + λ] - γ

$Gain = \frac{1}{2}[\frac{G_L^2}{H_L+\lambda}+ \frac{G_R^2}{H_R+\lambda} - \frac{(G_L+G_R)^2}{H_L+H_R+\lambda}] - \gamma$
因为每次分隔会多出一个树，所以要减去

γ γ $\gamma$ 。

xiayto

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习--XGBoost

1、模型思想XGBoost是GBDT改良版，都是通过多个弱学习器，不断地减少残差。GBDT主要是对残差求一阶导，向负梯度的方向拟合残差，而XGBoost运用了泰勒展开，考虑到了二阶导数。2、公式推导每次的迭代都是前面的弱学习器组合上新的学习器，表示为： ŷ&nbsp;(t)i=ŷ&nbsp;(t−1)i+ft(xi)y^i(t)=y^i(t−1)+ft(xi)\hat{y}_i^...
复制链接

扫一扫