机器学习八股（3）

cvcvcvmonkey

于 2024-09-11 14:03:58 发布

阅读量769

点赞数 10

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_54038731/article/details/141789025

版权

梯度提升树（GBDT）

原理

1.损失函数的数值优化可以看成是在函数空间，而不是在参数空间。最关键！！

2.损失函数 $L(y,F)$ 包含平方损失 $(y-F)^{^{2}}$ ，绝对值损失 $|y-F|$ 用于回归问题，负二项对数似然 $log(1+e^{-2yF}),y\in \left \{ -1,1 \right \}$ 用于分类。

3.关注点是预测函数的加性扩展。

GBDT对分类问题的基学习器是二叉分类树，对回归问题基学习器是二叉决策树。

推理过程https://www.cnblogs.com/ScorpioLu/p/8296994.html

AdaBoost

原理：将多个弱分类器（一般用单层决策树）进行合理结合，使其成为一个强分类器。

思想：迭代，每次迭代只训练一个弱分类器，训练好的弱分类器将参与下一次迭代的使用。也就是说，在N次迭代后，一共就有N个弱分类器，其中N-1个是以前训练好的，其各种参数不变，本次训练第N个分类器。其中弱分类器的关系是第N个弱分类器更可能分对前N-1个弱分类器没分对的数据，最终分类输出要看这N个分类器的综合效果。

GBDT和AdaBoost区别

AdaBoost是通过提升错分数据点的权重来定位模型的不足，GBDT通过算梯度来定位模型的不足。

AdaBoost拟合的是原始数据，GBDT和XGBoost拟合的是Psuedo Residuals，当损失函数是平方损失函数时，Psuedo Residuals就是残差。

AdaBoost的损失函数是指数损失函数，GBDT和XGBoost的损失函数是可以自定义的。

极端梯度提升XGBoost

XGBoost 和 GBDT 的区别

https://github.com/amusi/Deep-Learning-Interview-Book/blob/master/docs/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0.md

传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。
传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。顺便提一下，xgboost工具支持自定义代价函数，只要函数可一阶和二阶求导。
xgboost在代价函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。从Bias-variance tradeoff角度来讲，正则项降低了模型的variance，使学习出来的模型更加简单，防止过拟合，这也是xgboost优于传统GBDT的一个特性。
Shrinkage（缩减），相当于学习速率（xgboost中的eta）。xgboost在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。实际应用中，一般把eta设置得小一点，然后迭代次数设置得大一点。（补充：传统GBDT的实现也有学习速率）
列抽样（column subsampling）。xgboost借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算，这也是xgboost异于传统gbdt的一个特性。
对缺失值的处理。对于特征的值有缺失的样本，xgboost可以自动学习出它的分裂方向。
xgboost工具支持并行。boosting不是一种串行的结构吗?怎么并行的？注意xgboost的并行不是tree粒度的并行，xgboost也是一次迭代完才能进行下一次迭代的（第t次迭代的代价函数里包含了前面t-1次迭代的预测值）。xgboost的并行是在特征粒度上的。我们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），xgboost在训练之前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。
可并行的近似直方图算法。树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，所以xgboost还提出了一种可并行的近似直方图算法，用于高效地生成候选的分割点。

KNN（K近邻算法）

思想：如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属类别。

K-Means

选择K个点作为初始质心

repeat

将每个点指派到最近的质心，形成K个簇

重新计算每个簇的质心（根据目标函数）

util 簇不发生变化或达到最大迭代次数

KNN和K-Means区别

KNN是分类算法，属于监督学习，喂给它的数据集是带label的数据，已经是完全正确的数据，没有明显的前期训练过程，属于memory-based learning。K的含义是给定样本x,要给x分类，即求出它的y，就从数据集中，在x的附近找离它最近的K的数据点，这K个数据点中类别C占的个数最多，就把y设为C。K-Means是聚类算法，属于非监督学习，喂给他的数据集是无label的数据，是杂乱无章的，经过聚类后才变得有点顺序，先无序，后有序，有明显的前期训练过程。K是人工固定好的数字，假设数据集可以分为K个簇，由于依靠人工定好，需要先验知识。

都用了NN(Nears Neighbor)算法，一般用KD树来实现。

随机森林RF

要将一个输入样本进行分类，就需要将它输入到每棵树中进行分类，将若干个弱分类器的分类结果进行投票选择，从而组成一个强分类器。

分类效果与两个因素有关：

森林中任意两棵树的相关性：相关性越大，错误率越大；

森林中每棵树的分类能力：每棵树的分类能力越强，整个森林的错误率越低。

构建过程：

从原始训练集中使用Bootstraping方法随机有放回采样选出m个样本，共进行n_tree次采样，生成n_tree个训练集，分别训练n_tree个决策树模型。

对于单个决策树模型，假设训练样本特征个数为n，那么每次分裂时根据信息增益/信息增益比/基尼指数选择最好的特征进行分裂。每棵树一直这样分裂下去，直到该节点的所有训练样例都属于同一类。在决策树的分裂过程中不需要剪枝，将生成的多棵决策树组成随机森林。对于分类问题，按多棵树分类器投票决定最终分类结果；对于回归问题，由多棵树预测值的均值决定最终预测结果。