Python数据分析分类算法交叉验证实现

最新推荐文章于 2024-08-03 20:42:19 发布

wonderful_life_mrchi

最新推荐文章于 2024-08-03 20:42:19 发布

阅读量3.3k

点赞数

分类专栏： Python与大数据分析文章标签： python 分类 knn 交叉验证

Python与大数据分析专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在训练数据的过程或者参加数据比赛的时候，常常会遇到数据量不够大的情况，想充分利用不多的数据进行有说服力力的验证，从而选到一个对分类至关重要的参数，可以采用—K折交叉验证法(k-fold CrossValidation)，下面和大家分享一下。

1 变形前的K折

在遇到K折交叉验证之前，往往使用的是简单交叉验证（hold -out cross validation），也就是从全部的训练数据 D中随机选择 d的样例作为训练集 train，剩余的作为测试集 test（红色方框表示）。相信大家一定都非常熟悉，如果还不是很了解赶紧看看大牛Andrew Ng的课程吧。

在这里，数据都只被所用了一次，没有被充分利用

那么，怎样提高数据的利用率呢？

2 K折就是讲数据集切分成K小块，验证集和测试集相互形成补集，循环交替

纽约大学博士Seymour Geisser提出K折交叉验证法，具体步骤如下：

将数据集D随机分为k个包（这里假定K=6）。
每次将其中一个包作为测试集test，剩下k-1个包作为训练集train进行训练。

这里写图片描述

此时训练集train由D变成了K*D,

最后计算k次求得的分类率的平均值，作为该模型或者假设函数的真实分类率。
它有效的避免过学习以及欠学习状态的发生,最后得到的结果也比较具有说服性

你可能会问K选多少合适呢？

根据情况和个人喜好调节，常用的K值有3,6,10等。

3 python实现

在scikit-learn中有CrossValidation的实现代码，地址：scikit-learn官网crossvalidation文档

使用方法：
```
>>> import numpy as np
>>> from sklearn.model_selection import KFold

>>> X = ["a", "b", "c", "d"]
>>> kf = KFold(n_splits=2)
>>> for train, test in kf.split(X):
...     print("%s %s" % (train, test))
[2 3] [0 1]
[0 1] [2 3] 
```
```
            </div>
```

wonderful_life_mrchi

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Python数据分析分类算法交叉验证实现

在训练数据的过程或者参加数据比赛的时候，常常会遇到数据量不够大的情况，想充分利用不多的数据进行有说服力力的验证，从而选到一个对分类至关重要的参数，可以采用—K折交叉验证法(k-fold CrossValidation)，下面和大家分享一下。1 变形前的K折在遇到K折交叉验证之前，往往使用的是简单交叉验...
复制链接

扫一扫