XGBoost的目标函数：重要参数obj

沉淀体育生

已于 2022-01-30 14:45:46 修改

阅读量1.7k

点赞数 2

分类专栏： XGBoost & LightGBM 文章标签：机器学习算法 python 人工智能大数据

于 2022-01-30 14:44:46 首次发布

本文链接：https://blog.csdn.net/weixin_46803857/article/details/122744900

版权

XGBoost & LightGBM 专栏收录该内容

16 篇文章 13 订阅

订阅专栏

独特的目标函数

梯度提升算法中都存在着损失函数。不同于逻辑回归和SVM 等算法中固定的损失函数写法，集成算法中的损失函数是可选的，要选用什么损失函数取决于我们希望解决什么问题，以及希望使用怎样的模型。比如说，如果我们的目标是进行 回归预测 ，那我们可以选择 调节后的均方误差RMSE 作为我们的损失函数。如果我们是进行 分类预测 ，那我们可以选择 错误率error 或者 对数损失log_loss 。只要我们选出的函数是一个可微的，能够代表某种损失的函数，它就可以作为XGB的 损失函数 。

在众多机器学习算法中，损失函数的核心是衡量模型的泛化能力，即模型在未知数据上的预测的准确与否，我们训练模型的核心目标也是希望模型能够预测准确。在XGB中，预测准确自然是非常重要的因素，但我们之前提到过，XGB的是实现了模型表现和运算速度的平衡的算法。普通的损失函数，比如错误率，均方误差等，都只能够衡量模型的表现，无法衡量模型的运算速度。回忆一下，我们曾在许多模型中使用空间复杂度和时间复杂度来衡量模型的运算效率。XGB因此引入了模型复杂度来衡量算法的运算效率。因此 XGB 的目标函数被写作： 传统损失函数 + 模型复杂度 。

其中 $i$ 代表数据集中的第 $i$ 个样本， $m$ 表示导入第 $k$ 棵树的数据总量， $K$ 代表建立的所有树。 第一项代表传统的损失函数 ，衡量真实标签 $y_{i}$ 与预测值 $\hat{y}_{i}$ 之间的差异，通常是RMSE，调节后的均方误差。 第二项代表模型的复杂度 ，使用树模型的某种变换 $\varOmega$ 表示，这个变化代表了一个从树的结构来衡量树模型的复杂度的式子，可以有多种定义。注意，我们的 第二项中没有特征矩阵 的介入。我们在迭代每一棵树的过程中，都最小化 $Obj$ 来力求获取最优的 $\hat{y}$ ，因此我们同时最小化了模型的错误率和模型的复杂度。