Bootstrap,是resampling methods的一种,其他resampling methods方法(如cross-validation)可见笔者的其他博客:Cross validation 交叉验证 【机器学习】_HugoOo0的博客-CSDN博客
本文我们将通过三个问题来了解Bootstrap
1)干什么的?
Bootstrap repeatedly drawing samples from a training data set and refitting a given model on each sample with the goal of learning more about the model.
Bootstrapping从字面意思翻译是拔靴法,从其内容翻译又叫自助法,是一种再抽样的统计方法。
通过Bootstrap,我们可以在不引入新样本的情况下,生成新样本集。也就是说,在数据量有限的情况下,我们可以用它来产生“新”数据,以便更“深度”地学习数据、建立模型。
2)怎么运作的?
首先,我们用 来表示数据集,其中 , 我们随机地从中抽取出n组数据组成一个新的数据集(允许重复)。重复B次,得到
随后,套用下面公式来进行估计。此公式中,我们用数据集计算得出的估计值
下图方便读者理解。
3)优缺点?
1.自助法产生的训练集改变了初始数据集的分布,会引入估计偏差。
2.自助法能从初始数据集中产生多个不同的训练集,可以用于集成学习
参考文献:James G.,Written D.,Hastie T. and Tibshirani R.(2013). An intruduction to statistical learning with applications in R, Springer.