什么是bagging?

最新推荐文章于 2025-02-21 18:22:29 发布

不易撞的网名

最新推荐文章于 2025-02-21 18:22:29 发布

阅读量1k

点赞数 11

分类专栏：机器学习文章标签：算法机器学习集成学习

本文链接：https://blog.csdn.net/weixin_50569789/article/details/140189672

版权

234 篇文章

订阅专栏

Bagging（Bootstrap Aggregating）是一种集成学习方法，主要用于减少预测模型的方差，从而提高模型的稳定性。

这种方法由Leo Breiman在1996年提出，核心思想是从原始数据集通过有放回抽样（即自助采样，Bootstrap Sampling）生成多个子数据集，然后基于这些子数据集训练多个模型（基学习器），最后通过某种方式（如平均或投票）来组合这些模型的预测结果。

自助采样：从包含( N )个样本的原始数据集中，有放回地抽取同样大小( N )的样本集合。这个过程会重复( T )次，生成( T )个不同的样本集。
训练基学习器：对于每个样本集，训练一个基学习器。这些基学习器可以是任何类型的模型，但是通常选择容易过拟合的模型，如未剪枝的决策树。
预测：
- 分类问题：对于分类任务，每个基学习器对测试样本进行预测，然后通过多数投票决定最终类别。
- 回归问题：对于回归任务，每个基学习器对测试样本进行预测，然后计算所有预测的平均值作为最终预测。

Bagging算法没有特定的“公式”，但我们可以用数学语言描述它的过程和目标。假设我们有( T )个基学习器 ${h_t(x)\}_{t=1}^{T}$ ，每个基学习器都基于不同的自助样本集 $D_t$ 进行训练，其中( x )是输入特征向量。

对于分类问题，最终预测 $f (x)$ 可以表示为：
$\arg\max_{c} \sum_{t=1}^{T} I(h_t(x) = c)$

对于回归问题，最终预测可以表示为基学习器预测的平均值：
$\frac{1}{T} \sum_{t=1}^{T} h_t(x)$

Bagging的一个关键点在于它可以减少模型的方差，而不会增加偏差。模型的预测误差可以分解为偏差平方和方差两个部分：
$\text{Error} = \text{Bias}^2 + \text{Variance} + \text{Irreducible Error}$

$\text{Error}$ : 模型的总预测误差。
$\text{Bias}^2$ : 模型预测的偏差平方，衡量模型预测值与真实值的系统性偏离。
$\text{Variance}$ : 模型预测的方差，衡量模型预测值在不同训练集上的波动程度。
$\text{Irreducible Error}$ : 不可约误差，是由于噪声或模型无法捕捉的复杂度导致的固有误差，通常无法通过改进模型来减少。