【机器学习基础】CH2 - 监督学习(6)集成

最新推荐文章于 2024-06-14 10:10:18 发布

reindexx

最新推荐文章于 2024-06-14 10:10:18 发布

阅读量900

点赞数

分类专栏：机器学习文章标签：机器学习决策树人工智能

本文链接：https://blog.csdn.net/weixin_43831311/article/details/121318287

版权

机器学习专栏收录该内容

12 篇文章 3 订阅

订阅专栏

2.6 Model Ensembling

Bagging reduces variance

Boosting reduces bias

决策树最明显的缺点是，它们容易过拟合：如果深度较低，逼近能力就较低，但当深度较大时，数据往往会过度拟合。图2.7给出了一个说明。

然而，有一类方法极大地克服了这一缺点，它们使决策树的应用更加广泛。这些方法被称为 集成方法 ，我们将一组弱学习器 weak learners (来自小假设空间的模型)组合起来，形成一个具有良好近似和泛化特性的强学习器 strong learner。弱学习器的角色通常由决策树来扮演。不过，我们可以针对一般的弱学习器讨论这些方法。我们将介绍两种不同的方法来 组合模型 ，即装袋和增压 bagging and boosting 。

2.6.1 Bagging 装袋

我们讨论的第一种组合模型的方法可能也是最明显的：我们将基于 训练集 ，根据在不同子样本上训练的得到的模型集合，对预测进行聚合——对于回归问题，我们简单地取它们的 平均预测 ；对于分类问题，我们采用 多数投票法 进行模态预测。

这被广泛地称为引导聚合 bootstrap aggregating 或bagging方法。回归案例总结在算法1中。分类案例类似。

Algorithm 1: Bootstrap aggregating / Bagging

Data : $\mathcal{D}=\{x_i,y_i\}^N_{i=1}$

for $j = 1, . . ., m$ do

| 组一个随机，独立的、大小为 $N^{'}$ 的数据子集 $\mathcal{D}_j$ ，在放回的条件下

| 在 $\mathcal{D}_j$ 上，从经验风险最小化得到 $f_j$

end

return $\bar f(x)=\frac 1m\sum^m_{j=1}f_j(x)$

装袋的目的是什么? 为了看到这一点，我们可以考虑一个简单的套袋回归模型。假设我们有一组来自固定的假设空间 $\mathcal{H}$ 的训练过的模型 $\{f_i\}^m_{i=1}$ 。我们假设每个 $f_i$ 都是oracle函数 $f^*$ 的随机近似，即：

其中， $\epsilon _i$ 为均值为0方差为 $\sigma ^2$ 的随机方程。

聚合预测函数为：

现在我们将证明，在假设 $i\ne j$ ， $\epsilon _i$ 和 $\epsilon _j$ 是不相关函数的情况下，聚合函数__减少了均方误差__。要看到这一点，请注意每个 $f_i$ 预测的均方误差为：

另一方面，聚合预测的平方误差为：

显然，减少了。

如果存在偏差，每个 $\mathbb{E}ϵ_i(x) = b(x) \ne 0$ ，会发生什么？

可以看出， $\mathbb{E}\bar f = \mathbb{E}f_i = b$ ，即，聚合模型没有改变偏差。然而，一个类似于上面的计算表明，它将方差减少了m倍。更一般地，这个结果可以由中心极限定理或浓度/大偏差估计 the central limit theorem, or concentration/large-deviation estimates 推导出来。

在实践中，很少观察到明显显著性方差减少。这是因为误差 $ϵ_i$ 是通过对训练数据集进行子抽样而形成的：

如果样本数量较少，则方差 $σ^2$ 较大；
如果取了大量的样本，那么不同的模型就会变得高度相关。
更重要的是，套袋并不能有效地减少模型的偏差。换句话说，它并没有提高潜在假设空间的逼近能力。

下面，我们将介绍另一种结合模型的方法，它实际上增加了 近似能力 。

2.6.2 Boosting

与并行组合模型的套袋不同，Boosting 组合模型是 按顺序进行 的。最基本的助推形式是自适应助推，或AdaBoost 。 AdaBoost的主要思想是在对每个弱学习器进行训练后，自适应地重新 加权训练 样本，使下一个弱学习器可以集中精力纠正前一个学习者所犯的错误。最后，对弱学习器进行适当的权值组合，以减少整体误差。 Adaboost算法在算法2中给出。

Algorithm 2: AdaBoost

在所有训练样本中使用统一权重进行初始化
训练一个分类器/回归器 $f_1$
识别 $f_1$ 出错(分类)或有较大误差(回归)的样本
对这些样本进行更大的权重，并在这个重新加权的数据集上训练 $f_2$
重复步骤3 - 5

从算法2中，我们观察到 $f_1$ 是用 $w_i = 1/N$ 的均匀权值进行训练的，即按照通常的方式。随后，对错误分类的点增加权重，对正确分类的点减少权重。因此，鼓励后续学习器关注这些错误分类的要点。加权系数 $α_j$ 赋予更精确的分类器更大的权重，从而提高总体分类精度。

手写笔记

在这里插入图片描述

reindexx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习基础】CH2 - 监督学习(6)集成

2.6 Model EnsemblingBagging reduces variance Boosting reduces bias决策树最明显的缺点是，它们容易过拟合：如果深度较低，逼近能力就较低，但当深度较大时，数据往往会过度拟合。图2.7给出了一个说明。然而，有一类方法极大地克服了这一缺点，它们使决策树的应用更加广泛。这些方法被称为集成方法，我们将一组弱学习器 weak learners (来自小假设空间的模型)组合起来，形成一个具有良好近似和泛化特性的强学习器 strong lea
复制链接

扫一扫