Xgboost原理解释和目标函数推导

最新推荐文章于 2024-07-22 16:48:03 发布

yuride

最新推荐文章于 2024-07-22 16:48:03 发布

阅读量112

点赞数

分类专栏：机器学习公式推导学习笔记文章标签：决策树算法

本文链接：https://blog.csdn.net/weixin_43858206/article/details/128965053

版权

机器学习公式推导学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Xgboost原理解释和目标函数推导

$\\ Xgboost\text{解决问题的核心思路：\ }\\ ~\\ \text{在使用决策树解决一些实际问题时，在创建第一棵树时，能够得到的效果不一定能够达到任务的要求，}\\ ~\\ \text{所以我们需要创建多棵树，来共同解决问题，得到理想的效果，所以}Xgboost\text{的最核心的要求就是，}\\ ~\\ \text{在添加每一棵决策树时，最后的结果都必须有一定的提升，故}Xgboost\text{是个提升模型。}\\ ~\\ \text{用表达式来表示为：}\\ ~\\ \hat{y}_{i}^{\left( 0 \right)}=0\\ ~\\ \hat{y}_{i}^{\left( 1 \right)}=f_1\left( x_i \right) =\hat{y}_{i}^{\left( 0 \right)}+f_1\left( x_i \right) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ ps:f_1\left( x_i \right) \,\,\text{表示第一棵树的}function\ \ \hat{y}_{i}^{\left( 1 \right)}\text{加了第一棵树的预测值}\\ ~\\ \hat{y}_{i}^{\left( 2 \right)}=f_1\left( x_i \right) =\hat{y}_{i}^{\left( 0 \right)}+f_2\left( x_i \right) =\hat{y}_{i}^{\left( 1 \right)}+f_2\left( x_i \right) \\ ~\\ \cdots \\ ~\\ \hat{y}_{i}^{\left( t \right)}=\sum\limits_{k=1}^t{f_k\left( x_i \right)}=\hat{y}_{i}^{\left( t-1 \right)}+f_t\left( x_i \right) \ \ \ \ \ \ \ \ \ \ \ \ ps:\hat{y}_{i}^{\left( t \right)}\text{第}t\text{轮的模型预测\\\ }\hat{y}_{i}^{\left( t-1 \right)}\text{保留前}t-1\text{轮的模型预测\ }f_t\left( x_i \right) \text{加入第}t\text{棵树}\\ ~\\ \text{为防止模型的过拟合，我们引入一个惩罚函数：} \varOmega \left( f_t \right) =\gamma T+\frac{1}{2}\lambda \sum\limits_{j=1}^T{w_{j}^{2}}\\ ~\\ \text{其中}\gamma \text{为系数可以理解为惩罚力度，}T\text{表示叶子的个数，}w_j\text{表示每个叶子的权重值，}\frac{1}{2}\lambda \sum\limits_{j=1}^T{w_{j}^{2}}\text{为}L2\text{正则化项}\\ ~\\ ~\\ Xgboost\text{公式推导：}\\ ~\\ \text{为了在实际问题中使用该思想，我们需要为具体任务设定一个目标函数，并经过多次迭代得到最佳结果，假设我们的目标函数为：}\\ ~\\ Obj^{\left( t \right)}=\sum\limits_{i=1}^n{l\left( y_i,\hat{y}^{\left( t \right)} \right)}+\sum\limits_{i=1}^t{\Omega \left( f_i \right)}\\ ~\\ \text{我们知道}Xgboost\text{最核心思想是，每次我们选取决策树，都必须使得我们设定的目标函数尽可能大的降低，所以我们的目标函数进一步变成：}\\ ~\\ Obj^{\left( t \right)}=\sum\limits_{i=1}^n{l\left( y_i,\hat{y}^{\left( t-1 \right)}+f_t\left( x_i \right) \right)}+\sum\limits_{i=1}^t{\Omega \left( f_i \right)}\ +\ cons\tan t\ \ ps:f_t\left( x_i \right) \text{表示我们下一步将要选取的决策树，}cons\tan t\text{表示计算中的常数项}\\ ~\\ \text{此时，我们的目标就可以转换成：找到一个}f_t\text{用来优化上方的目标函数。}\\ ~\\\text{通过观察目标函数我们可以发现，在}l\left( y_i,\hat{y}^{\left( t-1 \right)}+f_t\left( x_i \right) \right) \text{中，我们可以将}y_i,\hat{y}^{\left( t-1 \right)}\text{看作}x\text{，将}f_t\left( x_i \right) \text{看作}\Delta x\text{，此时等式变成}l\left( x+\Delta x \right) \text{，}\\ ~\\ \text{由于我们需要得到最优解，我们很容易想到求导操作，进而想到使用泰勒公式展开。}\\ ~\\ \text{泰勒展开式为：}f\left( x+\Delta x \right) \simeq f\left( x \right) +f^{'}\left( x \right) \Delta x+\frac{1}{2}f^{''}\left( x \right) \Delta x^2\\ ~\\ \text{为了等式简单，我们定义：}\\ ~\\ g_i=\partial _{\hat{y}^{\left( t-1 \right)}}l\left( y_i,\hat{y}^{\left( t-1 \right)} \right) ,\ h_i=\partial _{\hat{y}^{\left( t-1 \right)}}^{2}l\left( y_i,\hat{y}^{\left( t-1 \right)} \right) \\ ~\\ Obj^{\left( t \right)}\simeq \sum\limits_{i=1}^n{\left[ l\left( y_i,\hat{y}^{\left( t-1 \right)} \right) +g_if_t\left( x_i \right) +\frac{1}{2}h_if_{t}^{2}\left( x_i \right) \right]}+\Omega \left( f_t \right) +\,\,cons\tan t\ \\ \text{由于，}l\left( y_i,\hat{y}^{\left( t-1 \right)} \right) \text{表示前}t-1\text{棵树的预测值，可以看作为常数值，故目标函数进一步化简为：}\\ ~\\ Obj^{\left( t \right)}\simeq \sum\limits_{i=1}^n{\left[ g_if_t\left( x_i \right) +\frac{1}{2}h_if_{t}^{2}\left( x_i \right) \right]}+\Omega \left( f_t \right) +\,\,cons\tan t\,\,\\ ~\\ \text{其中：}g_i=\partial _{\hat{y}^{\left( t-1 \right)}}l\left( y_i,\hat{y}^{\left( t-1 \right)} \right) ,\,\,h_i=\partial _{\hat{y}^{\left( t-1 \right)}}^{2}l\left( y_i,\hat{y}^{\left( t-1 \right)} \right) \\ ~\\ Obj^{\left( t \right)}\simeq \sum\limits_{i=1}^n{\left[ g_if_t\left( x_i \right) +\frac{1}{2}h_if_{t}^{2}\left( x_i \right) \right]}+\Omega \left( f_t \right) +\,\,cons\tan t\,\,\\ ~\\ ps\text{：由于常数项求导为0，故可以暂时将常数项不看，得到下式}\\ ~\\ \ \ \ \ \ =\sum\limits_{i=1}^n{\left[ g_if_t\left( x_i \right) +\frac{1}{2}h_if_{t}^{2}\left( x_i \right) \right]}+\Omega \left( f_t \right)\\ ~\\ ps\text{：把惩罚函数}\varOmega \left( f_t \right) =\gamma T+\frac{1}{2}\lambda \sum\limits_{j=1}^T{w_{j}^{2}}\text{代入得到下式}\\ ~\\ \ \ \ \ \ =\sum\limits_{i=1}^n{\left[ g_if_t\left( x_i \right) +\frac{1}{2}h_if_{t}^{2}\left( x_i \right) \right]}+\gamma T+\frac{1}{2}\lambda \sum\limits_{j=1}^T{w_{j}^{2}}\\ ~\\ ps\text{：第}t\text{棵树的}function\text{即}f_t\left( x_i \right) \text{，其实本质上就是权重参数，即}f_t\left( x_i \right) =w_{q\left( x_i \right)}\text{代入得到下式}\\ ~\\ \ \ \ \ \ =\sum\limits_{j=1}^n{\left[ g_iw_{q\left( x_i \right)}+\frac{1}{2}h_iw_{q\left( x_i \right)}^{2} \right]}+\gamma T+\frac{1}{2}\lambda \sum\limits_{j=1}^T{w_{j}^{2}}\\ ~\\ ps\text{：}n\text{表示样本个数，用}\sum\limits_i^n{\text{表示逐样本遍历}}\text{，}T\text{表示叶子节点个数，用}\sum\limits_{j=1}^T{\text{表示逐叶子姐节点遍历}}\text{，用}\sum\limits_{i\in I_j}^{}{}\text{表示每个叶子节点中的样本个数，因此得到下式}\\ ~\\ \ \ \ \ \ =\sum\limits_{j=1}^T{\left[ \left( \sum\limits_{i\in I_j}^{}{g_i} \right) w_j+\frac{1}{2}\left( \sum\limits_{i\in I_j}^{}{h_i} \right) w_{j}^{2} \right]}+\gamma T+\frac{1}{2}\lambda \sum\limits_{j=1}^T{w_{j}^{2}}\\ ~\\ ps:w_{q\left( x_i \right)}\ \text{表示单个样本的权重，}w_j\text{表示叶子结点的权重}\\ ~\\ \text{前后合并得到：}\\ ~\\ \ \ \ \ \ =\sum\limits_{j=1}^T{\left[ \left( \sum\limits_{i\in I_j}^{}{g_i} \right) w_j+\frac{1}{2}\left( \sum\limits_{i\in I_j}^{}{h_i}+\lambda \right) w_{j}^{2} \right]}+\gamma T\\ ~\\ \text{为了进一步化简目标函数，我们令：}\\ ~\\ G_j=\sum\limits_{i\in I_j}^{}{g_i},\ H_j=\sum\limits_{i\in I_j}^{}{h_i}\\ ~\\ ps\text{：}G_j\text{表示所有样本一阶导的累加和，}H_j\text{示所有样本二阶导的累加和，带入目标函数得}\\ ~\\ Obj^{\left( t \right)}=\sum\limits_{j=1}^T{\left[ G_jw_j+\frac{1}{2}\left( H_j+\lambda \right) w_{j}^{2} \right]}+\gamma T\\ ~\\ \text{回顾我们的任务，找到目标函数的最优解，我们对}f_t\left( w_j \right) =G_jw_j+\frac{1}{2}\left( H_j+\lambda \right) w_{j}^{2}\text{求一阶导得：}\\ ~\\ \frac{\partial J\left( f_t \right)}{\partial w_j}=G_j+\left( H_j+\lambda \right) w_j=0\\ ~\\ \text{解得：}w_j=-\frac{G_j}{H_j+\lambda}\text{，带入目标函数为：}\\ ~\\ Obj=-\frac{1}{2}\sum\limits_{j=1}^T{\frac{G_{j}^{2}}{H_j+\lambda}+}\gamma T\\ \\.$