XGBoost算法的原理总结

本文介绍了XGBoost算法的基本原理,包括最优模型构建的结构风险最小化,Boosting方法的回归思想,以及XGBoost在分类任务中的应用。详细推导了XGBoost的目标函数,探讨了CART回归树的构建方法,并对比了XGBoost与GDBT的区别,强调了XGBoost的并行优化策略和对缺失值的处理。
摘要由CSDN通过智能技术生成

最近在网上查询阅读了关于XGBoost的文章和博客,便对自己的理解做了总结。XGBoost(eXtreme Gradient Boosting)全名叫极端梯度提升,是集成学习方法中的王牌,在绝大数的回归和分类问题上表现的强悍,在这里梳理下XGBoost的算法原理。

1.最优模型的构建方法

构建最优模型的一般方法是最小化训练数据的损失函数,我们用字母 L表示,如下式:
在这里插入图片描述
式(1)称为经验风险最小化,训练得到的模型复杂度较高。当训练数据较小时,模型很容易出现过拟合问题。
因此,我们可以利用添加正则项的结构风险最小化模型:
在这里插入图片描述
结构风险最小化模型在考虑了损失函数最小化的基础上,控制了模型复杂度,用来避免过拟合的情况,往往对训练数据以及测试数据都有较好的预测效果。

2.Boosting方法的回归思想

Boosting法是结合多个弱学习器给出最终的学习结果,不管任务是分类或回归,我们都用回归任务的思想来构建最优Boosting模型 。
回归思想:把每个弱学习器的输出结果当成连续值,这样做的目的是可以对每个弱学习器的结果进行累加处理,且能更好的利用损失函数来优化模型。
假设 f t ( x i ) f^t(x_i) ft(xi)是第 t t t 轮弱学习器的输出结果, y ^ i t \hat{y}_i^t y^it是模型的输出结果,而 y i y_i yi是实际输出结果,表达式如下:
在这里插入图片描述上面两式就是加法模型,都默认弱学习器的输出结果是连续值。

3.分类任务的回归思想

根据2.1式的结果,得到最终的分类器:
在这里插入图片描述
分类的损失函数一般选择指数函数或对数函数,这里假设损失函数为对数函数,学习器的损失函数是
在这里插入图片描述
若实际输出结果yi=1,则:
在这里插入图片描述 y ^ i t \hat{y}_i^t y^i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值