交叉验证网格搜索过程
假如交叉验证为4折交叉验证。
- 在网格搜索的某个参数组合下,开始交叉验证。首先将训练集分为4份,每次选取3份作为训练集,一份作为验证集。使用训练集进行模型的训练,然后使用验证集进行模型的评估,RMSE作为评价模型性能的方式。
- 在得到4个模型并分别使用验证集进行模型评估后,得到4个RMSE值。选取评估结果的平均数/中位数/方差作为该参数组合下,模型最终的评估结果。
- 重新选取参数组合进行交叉验证,重复上述过程,得到对应参数组合模型最终的性能评估结果。
- 求解完所有参数组合模型最终的性能评估结果,比较后找到性能评估结果最优的模型。使用该模型的超参数对4份训练集重新进行训练得到最佳模型。
默认情况下,使用K个评估结果的平均值作为最终的评估结果。
举例:4折交叉验证。超参数为alpha={1 , 2}
过程如下:
超参数alpha=1,进行一次交叉验证。
将训练集继续分为4份,其中3份作为训练集,一份作为验证集。依次命名为1,2,3,4
使用234作为训练集进行该参数下模型的训练,训练完成后使用1作为验证集进行性能的评估。同理,依次使用1,3,4和1,2,4和123作为训练集进行模型的训练,留下的验证集进行模型的性能评估。
指定性能评估方式为RMSE(均方根误差)-可以自己更改。4个模型使用对应的验证集进行评估后得到4个评估结果。对这4个评估结果求平均(可以更改),作为该超参数组合下,模型最终的评估结果。
超参数alpha=2,进行一次交叉验证。
同alpha=1的过程,得到4个模型后,使用验证集进行评估得到4个评估结果。对这4个评估结果求平均(可以更改),作为该超参数组合下,模型最终的评估结果。
重复这个过程。直到所有的超参数组合都进行了交叉验证。