k-Fold Cross-Validation,k折交叉验证,被广泛应用于机器学习领域,通常有两个作用:(1)用于模型及超参数的选择;(2)评估模型泛化误差
单次k-Fold Cross-Validation会导致对模型性能的不准确评估,比如在不同随机种子下的不同划分会产生不同的结果;Repeated k-Fold Cross-Validation通过重复多次k-Fold Cross-Validation过程,给出平均结果作为最终评估结果,提供对数据集上模型的真实未知潜在平均性能的更准确估计。这是使用Repeated k-Fold Cross-Validation的原因。
所以,这个平均结果具体是怎么获得的呢?
假设一个r次重复k-Fold Cross-Validation实验,以分类准确率Accuracy为评估指标,有三种获得平均结果的方式:
(1)对于一次k-Fold Cross-Validation,获得原始数据上的准确率,再取r个准确率的平均值。在《数据挖掘:概念与技术》[1] 中对单次k-Fold Cross-Validation的准确率估计给出了这样的描述 “对于分类,准确率估计是k次迭代正确分类的元组总数除以初始数据中的元组总数”(P241),因此,在此观点基础上的Repeated k-Fold Cross-Validation为r个准确率的平均值;文献 [2-4] 使用了这种方式对Cross-Validation进行了讨论;
(2)对于一次k-Fold Cross-Valida