机器学习算法原理（一）机器学习算法汇总

最新推荐文章于 2024-07-30 01:28:06 发布

Sober-C

最新推荐文章于 2024-07-30 01:28:06 发布

阅读量879

点赞数

分类专栏：趣味数学

本文链接：https://blog.csdn.net/xm961217/article/details/105729944

版权

趣味数学专栏收录该内容

6 篇文章 0 订阅

订阅专栏

机器学习经过漫长的发展,算法的数量与类型也比较繁杂.这篇文章用于记载机器学习总共有哪些算法,并进行粗略的简介，随着复习进度，会不断的补充没写上的算法。而博主会针对 NLP 与推荐方向比较常用的机器学习算法进行深入讲解

关于机器学习的分类，其实有些算法比较难以定义，例如决策树算法可以分类也可以回归，所以在分类上，大家就不必太过于纠结

classification (分类)，

regression (回归),

clustering (聚类),

dimensionality reduction (降维)。

关于类别的详细介绍

分类，聚类及其回归的区别

零集成算法

集成算法中的 GDBT ，XGBoost 等对于推荐方向和 NLP 方向有着广泛的应用，因此为此特分一个专题

集成算法简介

知乎代码示例

1. boosting 算法

关于boosting（提升算法）的概念，上文有简单介绍过，提升算法（这是一类算法族的称呼，不是指某种具体算法）是通过改变训练样本的权重（如果基分类器不支持则通过调整采样的方式改变基分类器的训练样本分布），学习多个分类器，并将这些分类器进行线性组合，提高分类的性能

1.1 Adaboost（自适应增强算法）

在 boosting 中有两个问题，第一：如何调整每次训练样本权重，第二：如何将得到的 M 个学习器组合成最终学习器

而在 Adaboost 中，选择了以下策略，第一：提高上一轮被错误分类的样本的权值，降低正确分类的样本权值

第二：线性加权求和，误差率小的基学习器有较大的权值，误差率大的基学习器有较小的权值

AdaBoost 算法详解

1.2 梯度下降树 GDBT（GDBT 实际上包含 XGBoost 算法，它是 GDBT 的一个变种，为了区分，GDBT 一般指只用了一阶导数信息的 GDBT 算法）

GDBT 是以 CART 树（回归树）作为基分类器的 boosting 算法。GDBT 算法主要是通过残差拟合目标，也就是根据第一个模型的预估值与真实值的误差，再新建一个分类器，对误差进行拟合

GDBT 算法详解

1.3 XGBoost

如果把xgboost对gbdt的所有改进细节列出来，那牵扯的point有点多，所以选择几个点进行阐述。

为了用最容易理解的思路，我们就假设不知道xgboost算法，先去思考GBDT的过程中有哪些点可以改进：

1、基学习器的选择。

GBDT使用CART（回归树）作为基学习器，我们还可以考虑支持其他的基学习器，所以xgboost也支持线性学习器

2、损失函数的选择。

GBDT大多数情况下采用平方误差和作为损失函数，我们还可以考虑更优秀的损失函数，所以xgboost实现了自己的损失函数。

3、特征分裂点及特征选择。

GBDT采用CART树的特征分裂点及特征选择方式，具体为串行遍历所有的特征分裂点和特征，选择平方误差和最小的特征及特征分裂点；

这个过程中，我们注意到各特征及分割点的损失函数的计算可以并行执行，而且如果对样本按照特征排序的结果在全局可以复用，可大大提高计算效率，而xgboost也是这样做的。

另外，GBDT的每棵树的特征选择策略都是相同的，方差较小，多样性不足，我们可以借鉴随机森林中列抽样（随机变量选择）的思想，xgboost也实现了这一点。

4、不同的树对于残差的拟合策略

GBDT采用残差的一阶导数代替残差进行拟合（这里需要说明，许多资料说用一阶导代替残差的原因是残差难以获得，这好扯淡啊，拟合一阶导的优点明明是为了更快地进行拟合，而且当损失函数为平方误差和时，一阶导就等于残差），发散一下我们就想到了梯度下降和牛顿法，那我们能不能使用二阶导来拟合残差呢，答案是肯定的，且xgboost也是这样做的，而且通过二阶导拟合策略计算出了xgboost的损失函数（见步骤2）。损失函数不仅考虑到了经验风险，也考虑到了结构风险，通过结构风险正则化，使得xgboost泛化性能更佳，更不容易过拟合。

1.4 LightGBM

LightGBM 在精度，运行效率，内存消耗上都有提升于 XGBoost

1、boosting过程中，最耗时的就是特征选择及连续特征分裂点选取的问题，xgboost已经通过pre-sorted预排序的方法进行了优化，但是如果样本对应的特征枚举值过多，还是会导致耗时过长的问题。所以我们可以考虑HistoGram（直方图）算法，通过预先对样本的特征进行分桶（bin）的方式，在选择分裂点的时候遍历各个桶，就可以有效地提高运行效率，虽然会稍微损失一点精度，但是可以通过其它的优化进行弥补。

2、结点的分裂策略。GBDT和xgboost在树的分裂过程中，都采用level-wise（类似层序遍历）的分裂方式，这种方式平等地对待了分裂贡献可能相差很大的同一层的不同子结点。lightGBM采用leaf-wise（类似深度优先遍历）分裂策略，每一步都选择最深的贡献最大的子结点进行分裂。

3、采样方法。无论是GBDT还是xgboost，我们都是在不停地训练基学习器去拟合残差，当残差小于某个阈值时停止训练，可能存在这样一种情况，对于大多数样本来讲，其梯度已经较小，而小部分样本的梯度仍较大，所以我们想到可以在每次训练新的基学习器时，保留梯度较大的样本，减少梯度较小的样本数量（随机采样），这便是GOSS方法(Gradient-based One-Side Sampling)。