(学习笔记)机器学习算法——XGBoost实战--天气数据集预测

这篇博客介绍了XGBoost算法,包括其优化的GBDT原理和实战预测天气数据集的应用。讨论了XGBoost的关键参数如eta、min_child_weight、max_depth等,并展示了如何在Python中调用XGBoost进行数据预处理、模型训练和特征选择,强调了通过调整参数优化模型的重要性。
摘要由CSDN通过智能技术生成

XGBoost算法

XGBoost是2016年由华盛顿大学陈天奇老师带领开发的一个可扩展机器学习系统。严格意义上讲XGBoost并不是一种模型,而是一个可供用户轻松解决分类、回归或排序问题的软件包。它内部实现了梯度提升树(GBDT)模型,并对模型中的算法进行了诸多优化,在取得高精度的同时又保持了极快的速度,在一段时间内成为了国内外数据挖掘、机器学习领域中的大规模杀伤性武器。

此笔记主要为三部分:原理简述;实战预测;优缺总结。

原理简述

  1. GDBT(梯度提升树):XGBoost底层实现了GBDT算法
    并对GBDT算法做了一系列优化:
  • 对目标函数进行了泰勒展示的二阶展开,可以更加高效拟合误差。
  • 提出了一种估计分裂点的算法加速CART树的构建过程,同时可以处理稀疏数据。
  • 提出了一种树的并行策略加速迭代。
  • 为模型的分布式算法进行了底层优化。
    GDBT原理.
  1. XGBoost:XGBoost是基于CART树的集成模型,它的思想是串联多个决策树模型共同进行决策。
    XGBoost原理.
  • XGBoost模型可以表示为以下形式,我们约定 f t ( x ) f_t(x) ft(x)表示前 t t t颗树的和, h t ( x ) h_t(x) ht(x)表示第 t t t颗决策树,模型定义如下:
    f t ( x ) = ∑ t = 1 T h t ( x ) f_{t}(x)=\sum_{t=1}^{T} h_{t}(x) ft(x)=t=1Tht(x)
  • 由于模型递归生成,第 t t t步的模型由第 t − 1 t-1 t1步的模型形成,可以写成:
    f t ( x ) = f t − 1 ( x ) + h t ( x ) f_{t}(x)=f_{t-1}(x)+h_{t}(x) ft(x)=f
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

weixin_45915761

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值