GBDT：梯度提升决策树

最新推荐文章于 2024-06-20 16:16:25 发布

Duckie-duckie

最新推荐文章于 2024-06-20 16:16:25 发布

阅读量285

点赞数

分类专栏：机器学习文章标签：数据数据分析数据挖掘机器学习算法

本文链接：https://blog.csdn.net/zb123455445/article/details/78529312

版权

GBDT（Gradient Boosting Decision Tree）是一种迭代的决策树算法，由多棵回归树组成，用于预测实值。它通过迭代优化模型，每棵树学习的是前一棵树的残差。在GBDT中，决策树是回归树，而非分类树，通过最小化均方差找到最佳分割点。GBDT的主要组成部分包括回归决策树、梯度提升和缩减。在实际应用中，GBDT广泛用于回归和二分类问题，具有很强的泛化能力。

摘要由CSDN通过智能技术生成

GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力（generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。

第1~4节：GBDT算法内部究竟是如何工作的？

第5节：它可以用于解决哪些问题？

GBDT主要由三个概念组成：Regression Decistion Tree（即DT)，Gradient Boosting（即GB)，Shrinkage (算法的一个重要演进分枝，目前大部分源码都按该版本实现）。搞定这三个概念后就能明白GBDT是如何工作的，要继续理解它如何用于搜索排序则需要额外理解RankNet概念，之后便功德圆满。下文将逐个碎片介绍，最终把整张图拼出来。

一、 DT：回归树 Regression Decision Tree

提起决策树（DT, Decision Tree) 绝大部分人首先想到的就是C4.5分类决策树。但如果一开始就把GBDT中的树想成分类树，那就是一条歪路走到黑，一路各种坑，最终摔得都要咯血了还是一头雾水说的就是LZ自己啊有木有。咳嗯，所以说千万不要以为GBDT是很多棵分类树。决策树分为两大类，回归树和分类树。前者用于预测实数值，如明天的温度、用户的年龄、网页的相关程度；后者用于分类标签值，如晴天/阴天/雾/雨、用户性别、网页是否是垃圾页面。这里要强调的是，前者的结果加减是有意义的，如10岁+5岁-3岁=12岁，后者则无意义，如男+男+女=到底是男是女？ GBDT的核心在于累加所有树的结果作为最终结果，就像前面对年龄的累加（-3是加负3），而分类树的结果显然是没办法累加的，所以GBDT中的树都是回归树，不是分类树，这点对理解GBDT相当重要（尽管GBDT调整后也可用于分类但不代表GBDT的树是分类树）。那么回归树是如何工作的呢？