GBDT算法内部究竟是如何工作的？_gbdt算法模型流程-CSDN博客

本文链接：https://blog.csdn.net/zhangbaoanhadoop/article/details/81949017

GBDT（Gradient Boosting Decision Tree）是一种迭代决策树算法，通过构建多个弱分类器（CART树）并结合它们的预测结果来降低损失函数。每轮迭代中，GBDT寻找负梯度方向上的残差并拟合一个回归树。最终模型是所有树预测值的加权和。在分类问题中，GBDT使用多分类的逻辑回归思想，针对每个类别训练一棵树，并使用softmax转换预测概率。GBDT在处理非线性问题和特征组合上有优势，可用于回归和分类任务。

摘要由CSDN通过智能技术生成

http://blog.csdn.net/w28971023/article/details/8240756

https://www.cnblogs.com/ModifyRong/p/7744987.html

GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力（generalization)较强的算法。

GBDT算法内部究竟是如何工作的？

gbdt 的算法的流程？
gbdt 如何选择特征？
gbdt 如何构建特征？（形成新的特征）
gbdt 如何用于分类？
gbdt 通过什么方式减少误差？
gbdt的效果相比于传统的LR，SVM效果为什么好一些？

gbdt 的算法的流程

首先gbdt 是通过采用加法模型（即基函数的线性组合），以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。

gbdt通过多轮迭代,每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的梯度（如果损失函数是平方损失函数，则梯度就是残差值）基础上进行训练。对弱分类器的要求一般是足够简单，并且是低方差和高偏差的。因为训练的过程是通过降低偏差来不断提高最终分类器的精度，（此处是可以证明的）。

弱分类器一般会选择为CART TREE（也就是分类回归树）。由于上述高偏差和简单的要求每个分类回归树的深度不会很深。最终的总分类器是将每轮训练得到的弱分类器加权求和得到的（也就是加法模型）。

模型最终可以描述为：

模型一共训练M轮，每轮产生一个弱分类器 T(x;θm)T(x;θm)。弱分类器的损失函数

为当前的模型，gbdt 通过经验风险极小化来确定下一个弱分类器的参数。具体到损失函数本身的选择也就是L的选择，有平方损失函数，0-1损失函数，对数损失函数等等。如果我们选择平方损失函数，那么这个差值其实就是我们平常所说的残差。

但是其实我们真正关注的，1.是希望损失函数能够不断的减小，2.是希望损失函数能够尽可能快的减小。所以如何尽可能快的减小呢？
让损失函数沿着梯度方向的下降。这个就是gbdt 的 gb的核心了。利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值去拟合一个回归树。gbdt 每轮迭代的时候，都去拟合损失函数在当前模型下的负梯度。
这样每轮训练的时候都能够让损失函数尽可能快的减小，尽快的收敛达到局部最优解或者全局最优解。

gbdt 如何选择特征

GBDT中的弱分类器选择的是CART回归树。GBDT中特征的选择就是CART树的生成过程中特征属性的选择。而CART回归树的生成算法在这先不赘述，可参看李航的统计学习方法（后面有空再加篇笔记）。

gbdt 如何构建特征

其实说gbdt 能够构建特征并非很准确，gbdt 本身是不能产生特征的，但是我们可以利用gbdt去产生特征的组合。在CTR预估中，工业界一般会采用逻辑回归去进行处理, 逻辑回归本身是适合处理线性可分的数据，如果我们想让逻辑回归处理非线性的数据，其中一种方式便是组合不同特征，增强逻辑回归对非线性分布的拟合能力。

长久以来，我们都是通过人工的先验知识或者实验来获得有效的组合特征，但是很多时候，使用人工经验知识来组合特征过于耗费人力，造成了机器学习当中一个很奇特的现象：有多少人工就有多少智能。关键是这样通过人工去组合特征并不一定能够提升模型的效果。所以我们的从业者或者学界一直都有一个趋势便是通过算法自动，高效的寻找到有效的特征组合。Facebook 在2014年发表的一篇论文便是这种尝试下的产物，利用gbdt去产生有效的特征组合，以便用于逻辑回归的训练，提升模型最终的效果。