交叉验证

最新推荐文章于 2024-06-16 15:15:00 发布

数据科学家修炼之道

最新推荐文章于 2024-06-16 15:15:00 发布

阅读量1.1k

点赞数

分类专栏： AI # Sklearn笔记

本文为博主原创文章，欢迎转载，转载请注明出处。

本文链接：https://blog.csdn.net/xiligey1/article/details/81437194

版权

130 篇文章 7 订阅

订阅专栏

55 篇文章 0 订阅

订阅专栏

什么是交叉验证

拿最基本的交叉验证方法–k折交叉验证举例：
将训练集分成k个较小的集合： $train\_data=t_1+t_2+...+t_i+...+t_k$

for t in {t1, t2, ..., tk}:
    t作为验证集，其他k-1个集合合并后作为训练集
    计算出该模型的性能指标（如准确率）st
最终的性能指标S = avg(s1,s2,...,sk)

其他方法会在后边描述，主要原则基本和k折交叉验证相同

通常情况下，我们会将数据分成训练集和测试集。用训练集训练数据，然后在测试集上测试该模型的泛化能力。

但是当我们遇到有超参数的模型（如svm）时，不能直接用测试集来检验哪个超参数最优，而是必须先在原有基础上再分割出一个验证集，在验证集上检验哪个超参数最优，然后在测试集上测试模型的泛化能力。

而将数据分割成三个部分，会大大降低训练数据的数量，进而有可能会导致最终得出的模型解释能力不足，也会使模型的性能受到数据分割成训练和测试的随机性的影响。为了解决这一问题，我们可以使用交叉验证，充分的利用数据，同时也避免了随机性造成的模型性能不稳定。交叉验证在数据集较少的情况下优势较为明显。

不过，我们还是要注意，这样循环k次，会导致模型耗时更长，需谨慎使用。

这里详细介绍一下在sklearn中使用交叉验证训练模型的全过程。
todo
http://sklearn.apachecn.org/cn/0.19.0/modules/cross_validation.html

todo

关注

专栏目录