自助法交叉验证

最新推荐文章于 2024-06-20 23:16:58 发布

不易撞的网名

最新推荐文章于 2024-06-20 23:16:58 发布

阅读量653

点赞数 14

分类专栏：机器学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_50569789/article/details/139784165

版权

56 篇文章 0 订阅

订阅专栏

自助法交叉验证（Bootstrap Cross-Validation）结合了 自助采样法（Bootstrapping）和 交叉验证的思想，用于 模型评估和选择。
这种方法试图通过 增加数据集的多样性和减少模型评估中的 变异性来改进模型性能的估计。

自助采样法是一种有放回的采样技术，通常用于估计统计量的抽样分布或构建预测模型。具体操作如下：

从原始数据集中，有放回地抽取和原始数据集相同大小的样本集。
- 这意味着某些样本可能会被重复抽中，而有些样本可能根本不会被抽中。
- 当数据集足够大且抽样次数趋向于无穷时，未被抽中的样本比例大约为37%（即(e^{-1})），而被抽中一次以上的样本占比也会相应确定。
使用抽取的样本集作为训练集。
- 未被抽中的样本（约占37%）可以用来作为一个“新”的数据集，用以测试模型，尽管这个用法并不典型于基础的自助法，但在某些变种中可能会这样使用。

交叉验证通常涉及将数据集分割成几个部分（或“折”），然后轮流使用其中一个部分作为测试集，其余部分作为训练集，以此来评估模型的泛化能力。

将自助采样法与交叉验证相结合的一种方法是，对每次自助采样后得到的训练集执行内部的交叉验证。这通常意味着：

对原始数据集进行多次自助采样，每次采样生成一个新的训练集。
对于每个自助采样产生的训练集，进一步执行k折交叉验证或其他形式的交叉验证。
- 这一步允许在每个自助采样的训练集上评估模型的稳定性，同时考虑了模型在不同数据子集上的表现。

通过这种组合，研究者可以获得模型性能更加稳定和可靠的估计，尤其是在处理较小数据集时，这能有效减少由偶然性抽样导致的估计偏差。

自助法交叉验证特别适用于数据集较小或者需要对模型不确定性进行深入分析的情况。它可以帮助研究者更好地理解模型在不同数据子集上的表现，提高模型评估的稳健性。

总之，自助法交叉验证是提高模型评估准确性和稳健性的高级技术，尤其适合资源受限或对模型不确定度敏感的场景。

假设我们有一个包含100个样本的数据集，我们打算训练一个分类器来预测某个二分类问题。

我们开始进行自助采样。首先，从原始的100个样本中随机抽取一个样本，放回后再次抽取，如此重复100次，得到一个新的数据集D’。
由于是有放回的抽样，D’可能包含重复的样本，也可能有些样本没有被抽中。

假设在这个过程中，大约有37个样本没有被抽中（这是一个经验数值，实际数量会有波动），而剩下的63个样本构成了我们的自助采样数据集D'。

对于自助采样得到的D'，我们再进行k折交叉验证，比如选择5折交叉验证。这意味着我们将D’分为5个大小相近的子集（如果可能的话，尽量保持类别的比例一致，以避免偏差）。
- 第一轮，我们选取第一个子集作为验证集，其余四个子集合并作为训练集，训练模型并评估其在验证集上的性能。
- 第二轮，第二个子集作为验证集，其他四个子集作为训练集，重复上述过程。
- 这个过程继续，直到每个子集都被用作验证集一次。