【冰糖杂谈】关于Repeated k-Fold Cross-Validation 重复k折交叉验证的讨论

最新推荐文章于 2025-04-28 23:20:30 发布

冰糖不在家

最新推荐文章于 2025-04-28 23:20:30 发布

阅读量2.3k

点赞数 1

分类专栏：杂谈文章标签：数据挖掘机器学习人工智能

本文链接：https://blog.csdn.net/xiaoxiao_ziteng/article/details/107831754

版权

本文探讨了在机器学习中，如何通过Repeated k-Fold Cross-Validation更准确地评估模型性能。介绍了三种计算平均结果的方法：1) r次准确率的平均值；2) 先k次平均再r次平均；3) r*k次准确率的平均值，并引用了多篇文献支持。不同的计算方法在实践中都有应用，选择哪种取决于个人偏好和应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

k-Fold Cross-Validation，k折交叉验证，被广泛应用于机器学习领域，通常有两个作用：（1）用于模型及超参数的选择；（2）评估模型泛化误差

单次k-Fold Cross-Validation会导致对模型性能的不准确评估，比如在不同随机种子下的不同划分会产生不同的结果；Repeated k-Fold Cross-Validation通过重复多次k-Fold Cross-Validation过程，给出平均结果作为最终评估结果，提供对数据集上模型的真实未知潜在平均性能的更准确估计。这是使用Repeated k-Fold Cross-Validation的原因。

所以，这个平均结果具体是怎么获得的呢？

假设一个r次重复k-Fold Cross-Validation实验，以分类准确率Accuracy为评估指标，有三种获得平均结果的方式：

（1）对于一次k-Fold Cross-Validation，获得原始数据上的准确率，再取r个准确率的平均值。在《数据挖掘：概念与技术》[1] 中对单次k-Fold Cross-Validation的准确率估计给出了这样的描述 “对于分类，准确率估计是k次迭代正确分类的元组总数除以初始数据中的元组总数”（P241），因此，在此观点基础上的Repeated k-Fold Cross-Validation为r个准确率的平均值；文献 [2-4] 使用了这种方式对Cross-Validation进行了讨论；

（2）对于一次k-Fold Cross-Valida