xgboost理论推导

「 25' h 」

已于 2022-03-30 21:56:27 修改

阅读量508

点赞数 1

分类专栏：机器学习（数据分析与挖掘）文章标签：机器学习 xgboost 人工智能

于 2022-02-11 20:23:35 首次发布

本文链接：https://blog.csdn.net/weixin_54884881/article/details/122887888

版权

机器学习（数据分析与挖掘）专栏收录该内容

22 篇文章 4 订阅

订阅专栏

xgboost理论推导

算法大致架构
算法流程
模型依赖关系
引出损失函数
使用泰勒展式优化损失
参数化损失函数
二次函数优化损失求极值
损失差极大化确定特征条件
结论
计算过程举例
最优切分店选择
支持并行
关于预排序

xgboost王牌集成学习算法

知乎答主写的这一篇太棒了，戳这里

原论文

算法大致架构

请添加图片描述

算法流程

请添加图片描述

模型依赖关系

请添加图片描述

引出损失函数

请添加图片描述

使用泰勒展式优化损失

请添加图片描述

参数化损失函数

请添加图片描述

二次函数优化损失求极值

请添加图片描述

损失差极大化确定特征条件

请添加图片描述

结论

一般化结构分数：

注意泰勒展式推导中 $g_i$ 含义

$\text { Score }_{j}=\frac{\left(\sum_{i \in j} g_{i}\right)^{2}}{\sum_{i \in j} h_{i}+\lambda}$

$\operatorname{Score}_{j}=\frac{\text { 节点 } j \text { 上所有样本的一阶导数之和的平方 }}{\text { 节点 } j \text { 上所有样本的二阶导数之和 }+\lambda}$

$\begin{aligned} obj_{old}^*-obj_{new}^*=\text { Gain } &=\frac{1}{2}\left(\text { Score }_{L}+\text { Score }_{R}-\text { Score }\right)-\gamma \\ &=\frac{1}{2}\left(\frac{\left(\sum_{i \in L} g_{i}\right)^{2}}{\sum_{i \in L} h_{i}+\lambda}+\frac{\left(\sum_{i \in R} g_{i}\right)^{2}}{\sum_{i \in R} h_{i}+\lambda}-\frac{\left(\sum_{i \in P} g_{i}\right)^{2}}{\sum_{i \in P} h_{i}+\lambda}\right)-\gamma \end{aligned}$

这即是说，结构分数增益实际上就是:

$\text { Gain }=\text { 左节点的结构分数 + 右节点的结构分数 }-\text { 父节点的结构分数 }$

我们选择增益 $G a i n$ 最大的点进行分枝。

损失差极大化好像和模型复杂度的超参数γ没有关系…~~俺也不知道为啥~~

知道啥用了，在每个树模型生成时，虽然超参数γ不能改变树的特征选择过程，但是若信息增益值小于γ了，虽然是最优的方案，但是这个分割也不能作为树生长条件，因为信息增益减去γ小于零，没有价值，就这样限制了树模型的生长（不影响最优特征的选择），另外sklearn是先生成所有树模型，然后根据信息增益减去超参数γ的正负值进行剪枝。

在XGBoost中，我们追求一棵树整体的结构分数最大，因此XGBoost规定任意结构的分数增益不能为负，任意增益为负的节点都会被前枝，因此可以默认有:

$\frac{1}{2}\left(\frac{\left(\sum_{i \in L} g_{i}\right)^{2}}{\sum_{i \in L} h_{i}+\lambda}+\frac{\left(\sum_{i \in R} g_{i}\right)^{2}}{\sum_{i \in R} h_{i}+\lambda}-\frac{\left(\sum_{i \in P} g_{i}\right)^{2}}{\sum_{i \in P} h_{i}+\lambda}\right)-\gamma>0$

因此:

这是说，当参数 $\gamma$ 为 $0$ 时，任意增益为负的节点都会被剪枝。当 $\gamma$ 为任意正数时，任意增益小于 $\gamma$ 设定值的节点都会被剪枝。不难发现， $\gamma$ 在剪枝中的作用就相当于sklearn中的 $min\_impurity\_decrease$ 。

计算过程举例

在这里插入图片描述

致谢贪心学院李文哲老师

最优切分店选择

来自知乎
在这里插入图片描述

在这里插入图片描述

支持并行

在这里插入图片描述

关于预排序

为什么预排序：因为在通过结构分数计算Gain收益过程中，我们需要计算左右子树的结构分数？
假设样本值为：[ 3 , 33 , 16 ,23 ,4 ],左右子树方向条件是：> M为左节点，否则为右节点，那么我们通过排序后[ 33 , 23 , 16 , 4 , 3]，那么先将第一个[33]放在左，计算一下，然后[33 , 23]放在左，[ 33 ,23 16]放在左,再然后[ 33 , 23 , 16 , 4 ] 最后比较Gain值，若不进行排序，那么需要在确定M时对于谁去左谁去右都要遍历查找一下，就会造成时间效率低的情况。