lesson4_梯度提升树

weixin_45255694

于 2021-06-02 09:56:17 发布

阅读量227

点赞数

文章标签：决策树机器学习

本文链接：https://blog.csdn.net/weixin_45255694/article/details/117452134

版权

Q1. 介绍一下GBDT

梯度提升决策树（Gradient Boosting Decision Tree, GBDT）由三个概念组成：Regression Decision Tree（即 DT）、Gradient Boosting（即 GB），和 Shrinkage（一个重要演变）。

回归树（Regression Decision Tree）GBDT 的核心在于累加所有树的结果作为最终结果，所以 GBDT 中的树都是回归树，回归树在分枝时会穷举每一个特征的每个阈值以找到最好的分割点，衡量标准是最小化均方误差。

梯度迭代（Gradient Boosting）

缩减（Shrinkage）

Q2. xgboost有哪些改进？

（1）在使用CART作为基分类器时，XGBoost显式地加入了正则项来控制模型的复杂度，有利于防止过拟合，从而提高模型泛化能力。

（2）GBDT在模型训练过程中只使用了代价函数的一阶导信息，XGBoost对代价函数进行二阶泰勒展开，可以同时使用一阶和二阶导数。

（3）传统的GBDT采用CART作为基分类器，XGBoost支持多种类型的基分类器，比如线性分类器。

（4）传统的GBDT在每轮迭代时使用全部的数据，XGBoost则采用了与随机森林相似的策略，支持对数据进行采样。

（5）传统的GBDT没有设计对缺失值进行处理，XGBoost能够自动学习出缺失值的处理策略。

Q3. GBDT与随机森林的异同点？

不同：

GBDT属于Boosting策略。Boosting通过降低偏差来提升弱分类器的性能，其基本思想是根据当前模型损失函数的负梯度信息来训练新加入的弱分类器，然后将训练好的弱分类器以累加的形式结合到现有的模型中。这个过程不断地减小损失函数，使得模型偏差不断降低。但Boosting的过程不会显著降低方差，这是因为Boosting的训练过程中使得各弱分类器之间是强相关的，缺乏独立性，所以并不会对降低方差有作用。

Random Forest（随机森林）属于Bagging策略。Bagging通过降低方差来提升弱分类器的性能，RF在以决策树为基学习器构建 Bagging 集成的基础上，进一步在决策树的训练过程中引入了随机特征选择，每次选取节点分裂属性时，会随机抽取一个属性子集，而不是从所以属性中选择最优属性，避免了弱分类器之间过强的相关性。通过训练集的重采样也能够带来弱分类器之间一定的独立性，从而降低Bagging后模型的方差。

相同：GBDT与RF的基分类器均为决策树，都对决策树算法进行了优化，均属于集成算法的一种。