监督学习(八)——决策树集成：梯度提升回归树

最新推荐文章于 2024-07-22 21:47:20 发布

zartzwj

最新推荐文章于 2024-07-22 21:47:20 发布

阅读量738

点赞数

本文链接：https://blog.csdn.net/zartzwj/article/details/86578601

版权

梯度提升回归树是另一种决策树集成方法，通过合并多个决策树来构建一个更为强大的模型。虽然名字中含有“回归”，但这个模型既可以用于回归也可以用于分类。
与随机森林方法不同，梯度提升采用连续的方式构造树，每棵树都试图纠正前一棵树的错误。默认情况下，梯度提升回归树中没有随机化，而是用到了强预剪枝。梯度提升树通常使用深度很小(1到 5 之间)的树，这样模型占用的内存更少，预测速度也更快。
梯度提升背后的主要思想是合并许多简单的模型，比如深度较小的树。每棵树只能对部分数据做出好的预测，因此，添加的树越来越多，可以不断迭代提高性能。
梯度提升树通常对参数设置更为敏感，正确的设置参数，可以将精度提高很多。除了预剪枝与集成中树的数量之外，梯度提升的另一个重要参数是 learning_rate(学习率)，它用于控制每棵树纠正前一棵树的错误的强度。较高的学习率意味着每棵树都可以做出较强的修正，这样模型更为复杂。通过增大 n_estimators 来向集成中添加更多树，也可以增加模型复杂度，因为模型有更多机会纠正训练集上的错误。

例子

利用GradientBoostingClassifier，数据用sklearn.datasets中的load_breast_cancer。
第一次，用默认值： 100 棵树，最大深度是 3，学习率为 0.1。

cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(
         cancer.data, cancer.target, random_state=0)
gbrt = GradientBoostingClassifier(random_state=0)
gbrt.fit(X_train, y_train)
print("Accuracy on training set: {:.3f}".format(gbrt.score(X_train, y_train)))
print("Accuracy on test set: {:.3f}".format(gbrt.score(X_test, y_test)))
结果：
Accuracy on training set: 1.000
Accuracy on test set: 0.958

训练集精度达到 100%，很可能存在过拟合。为了降低过拟合，我们可以限制最大深度来加强预剪枝，也可以降低学习率:

第二次，将最大深度改为1。

gbrt = GradientBoostingClassifier(random_state=0, max_depth=1)
结果:
Accuracy on training set: 0.991
Accuracy on test set: 0.972

第三次，降低学习率。

gbrt = GradientBoostingClassifier(random_state=0, learning_rate=0.01)
结果：
Accuracy on training set: 0.988
Accuracy on test set: 0.965

由于梯度提升和随机森林两种方法在类似的数据上表现得都很好，因此一种常用的方法就是先尝试随机森林，它的鲁棒性很好。如果随机森林效果很好，但预测时间太长，或者机器学习模型精度小数点后第二位的提高也很重要，那么切换成梯度提升通常会有用。
如果你想要将梯度提升应用在大规模问题上，可以研究一下 xgboost 包及其 Python 接口，这个库在许多数据集上的速度都比 scikit-learn 对梯度提升的实现要快。

优点、缺点和参数

梯度提升决策树是监督学习中最强大也最常用的模型之一。
其主要缺点是需要仔细调参，而且训练时间可能会比较长。与其他基于树的模型类似，这一算法不需要对数据进行缩放就可以表现得很好，而且也适用于二元特征与连续特征同时存在的数据集。与其他基于树的模型相同，它也通常不适用于高维稀疏数据。
梯度提升树模型的主要参数包括树的数量 n_estimators 和学习率 learning_rate，后者用于控制每棵树对前一棵树的错误的纠正强度。这两个参数高度相关，因为 learning_ rate 越低，就需要更多的树来构建具有相似复杂度的模型。
随机森林的 n_estimators 值总是越大越好，但梯度提升不同，增大 n_estimators 会导致模型更加复杂，进而可能导致过拟合。通常的做法是根据时间和内存的预算选择合适的 n_estimators，然后对不同的 learning_rate 进行遍历。
另一个重要参数是 max_depth(或 max_leaf_nodes)，用于降低每棵树的复杂度。梯度提升模型的 max_depth 通常都设置得很小，一般不超过 5。