机器学习面试问题整理(3) — Tree树形模型

最新推荐文章于 2024-09-09 10:35:55 发布

Lestat.Z.

最新推荐文章于 2024-09-09 10:35:55 发布

阅读量4.8k

点赞数 1

分类专栏： Machine Learning 机器学习文章标签：机器学习 xgboost 决策树随机森林

本文链接：https://blog.csdn.net/yolohohohoho/article/details/87900065

版权

本文整理了机器学习面试中关于树形模型的问题，涵盖了决策树、随机森林、GBDT（梯度提升决策树）和XGBoost的核心知识点。讨论了它们的优缺点、训练方法、防止过拟合的策略以及模型之间的区别。随机森林通过随机样本和特征选择，降低了过拟合风险，而GBDT通过残差学习和正则化提高性能。

摘要由CSDN通过智能技术生成

文章目录

概述

基本推导和理论还是以看李航老师的《统计学习方法》为主。
各种算法的原理，推荐理解到可以手撕的程度。
以下为通过网络资源搜集整理的一些问题及答案，准备的有些仓促，没能记录所有资料的来源（侵删）

决策树笔记

https://download.csdn.net/download/yolohohohoho/10973332

随机森林优缺点

随机森林优点
1、在当前的很多数据集上，相对其他算法有着很大的优势，表现良好
2、它能够处理很高维度（feature很多）的数据，并且不用做特征选择
3、在训练完后，它能够给出哪些feature比较重要
4、在创建随机森林的时候，对generlization error使用的是无偏估计，模型泛化能力强
5、训练速度快，容易做成并行化方法，训练时树与树之间是相互独立的
6、在训练过程中，能够检测到feature间的互相影响
7、实现比较简单
8、对于不平衡的数据集来说，它可以平衡误差。
1）每棵树都选择部分样本及部分特征，一定程度避免过拟合；
2）每棵树随机选择样本并随机选择特征，使得具有很好的抗噪能力，性能稳定；
对缺失值不敏感，如果有很大一部分的特征遗失，仍可以维持准确度
随机森林有out of bag，不需要单独换分交叉验证集
。
随机森林缺点：
1）参数较复杂；
2）模型训练和预测都比较慢。
3) 不适合小样本，只适合大样本。

GBDT的原理，如何做分类和回归

首先明确一点，gbdt 无论用于分类还是回归一直都是使用的CART 回归树。不会因为我们所选择的任务是分类任务就选用分类树，这里面的核心是因为gbdt 每轮的训练是在上一轮的训练的残差基础之上进行训练的。这里的残差就是当前模型的负梯度值。这个要求每轮迭代的时候，弱分类器的输出的结果相减是有意义的。残差相减是有意义的。
如果选用的弱分类器是分类树，类别相减是没有意义的。上一轮输出的是样本 x 属于 A类，本一轮训练输出的是样本 x 属于 B类。