决策树之 GBDT 算法 - 回归部分

最新推荐文章于 2024-06-20 16:16:25 发布

阿里云技术

最新推荐文章于 2024-06-20 16:16:25 发布

阅读量558

点赞数 1

文章标签：决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43970890/article/details/111469185

版权

GBDT（Gradient Boosting Decision Tree）是被工业界广泛使用的机器学习算法之一，它既可以解决回归问题，又可以应用在分类场景中，该算法由斯坦福统计学教授 Jerome H. Friedman 在 1999 年发表。本文中，我们主要学习 GBDT 的回归部分。

在学习 GBDT 之前，你需要对 CART、AdaBoost 决策树有所了解，和 AdaBoost 类似，GBDT 也是一种 Boosting 类型的决策树，即在算法产生的众多树中，前一棵树的错误决定了后一棵树的生成。

我们先从最为简单的例子开始，一起来学习 GBDT 是如何构造的，然后结合理论知识，对算法的每个细节进行剖析，力求由浅入深的掌握该算法。

我们的极简数据集由以下： 3 条数据构成，使用它们来介绍 GBDT 的原理是再好不过了，假设我们用这些数据来构造一个 GBDT 模型，该模型的功能是：通过身高、颜色喜好、性别这 3 个特征来预测体重，很明显这是一个回归问题。

构造 GBDT 决策树

GBDT 只有第一棵树只有 1 个叶子节点，该节点为所有样本的初始预测值，且该值到所有样本间的 MSE（Mean Squared Error）是最小的。实际上，初始值就是所有样本的平均值，即 (88+76+56)/3 = 73.3，原因我们在下文会详细介绍。

接下来，根据预测值，我们算出每个样本的残差（Residual），如第一个样本的残差为：88 - 73.3 = 14.7，所有样本的残差如下：

接着，我们以残差为目标值来构建一棵决策树，构造方式同 CART 决策树，这里你可能会问到为什么要预测残差？原因我们马上就会知道，产生的数如下：

因为我们只有 3 个样本，且为了保留算法的细节，这里只用了 2 个叶子节点，但实际工作中，GBDT 的叶子

最低0.47元/天解锁文章

阿里云技术

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。