Python数据分析分类算法交叉验证实现

在训练数据的过程或者参加数据比赛的时候,常常会遇到数据量不够大的情况,想充分利用不多的数据进行有说服力力的验证,从而选到一个对分类至关重要的参数,可以采用—K折交叉验证法(k-fold CrossValidation),下面和大家分享一下。

1 变形前的K折


在遇到K折交叉验证之前,往往使用的是简单交叉验证(hold -out cross validation),也就是从全部的训练数据 D中随机选择 d的样例作为训练集 train,剩余的作为测试集 test(红色方框表示)。相信大家一定都非常熟悉,如果还不是很了解赶紧看看大牛Andrew Ng的课程吧。

在这里,数据都只被所用了一次,没有被充分利用

那么,怎样提高数据的利用率呢?

2 K折就是讲数据集切分成K小块,验证集和测试集相互形成补集,循环交替


纽约大学博士Seymour Geisser提出K折交叉验证法,具体步骤如下:

  • 将数据集D随机分为k个包(这里假定K=6)。
    这里写图片描述

  • 每次将其中一个包作为测试集test,剩下k-1个包作为训练集train进行训练。

这里写图片描述

此时训练集train由D变成了K*D,

  • 最后计算k次求得的分类率的平均值,作为该模型或者假设函数的真实分类率。
    这里写图片描述
  • 它有效的避免过学习以及欠学习状态的发生,最后得到的结果也比较具有说服性

    你可能会问K选多少合适呢?

    根据情况和个人喜好调节,常用的K值有3,6,10等。

    3 python实现


    在scikit-learn中有CrossValidation的实现代码,地址:scikit-learn官网crossvalidation文档

    使用方法:

    >>> import numpy as np
    >>> from sklearn.model_selection import KFold
    
    >>> X = ["a", "b", "c", "d"]
    >>> kf = KFold(n_splits=2)
    >>> for train, test in kf.split(X):
    ...     print("%s %s" % (train, test))
    [2 3] [0 1]
    [0 1] [2 3] 
                </div>
    
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值