Python中的KFold与StratifiedKFold

skearn做数据集的处理需要用到这两个比较重要的函数:KFold与StratifiedKFold,作用是在机器学习中进行交叉验证来使用。
这两个函数都是sklearn模块中的,在应用之前应该导入:

from sklearn.model_selection import  StratifiedKFold,KFold

两者的区别:

StratifiedKFold函数采用分层划分的方法(分层随机抽样思想),确保训练集、测试集中各类别样本的比例与原始数据集中相同。故StratifiedKFold在做划分的时候需要传入标签特征。

1、KFold函数

参数说明:

n_splits: 默认为3,表示将数据划分为多少份,即k折交叉验证中的k;
shuffle: 默认为False,表示是否需要打乱顺序,这个参数在很多的函数中都会涉及,如果设置为True,则会先打乱顺序再做划分,如果为False,会直接按照顺序做划分;
random_state: 默认为None,表示随机数的种子,只有当shuffle设置为True的时候才会生效。

代码:

import numpy as np
from sklearn.model_selection import KFold,StratifiedKFold
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4],[5,9],[1,5],[3,9],[5,8],[1,1],[1,4]])
y = np.array([0, 1, 1, 1, 0, 0, 1, 0, 0, 0])

print('X:',X)
print('y:',y)

seed = 7
np.random.seed(seed)
kf = KFold(n_splits=3, shuffle=False)

print(kf)
#做split时只需传入数据,不需要传入标签
for train_index, test_index in kf.split(X):
    print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

输出:

X: [[1 2]
 [3 4]
 [1 2]
 [3 4]
 [5 9]
 [1 5]
 [3 9]
 [5 8]
 [1 1]
 [1 4]]
y: [0 1 1 1 0 0 1 0 0 0]
KFold(n_splits=3, random_state=None, shuffle=False)
TRAIN: [4 5 6 7 8 9] TEST: [0 1 2 3]
TRAIN: [0 1 2 3 7 8 9] TEST: [4 5 6]
TRAIN: [0 1 2 3 4 5 6] TEST: [7 8 9]

输出说明:
大家注意到,输出中每个Train和Test都对应三个结果,是因为我们在调用函数是,参数n_splits=3,即交叉验证三次。其中的数字只是对应索引,并不是真正的数据,比如第一行TEST: [0 1 2 3]代表着:测试集选取了X[0,1,2,3]即对应:
[1 2]
[3 4]
[1 2]
[3 4]
其他同理。 

 split(X, y)函数参数:

split(X, y):
X:array-like,shape(n_sample,n_features),训练数据集。
y:array-like,shape(n_sample),标签。
返回值:训练集数据的index与验证集数据的index。

2、StratifiedKFold函数

StratifiedKFold函数的参数与KFold相同。

import numpy as np
from sklearn.model_selection import KFold,StratifiedKFold
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4],[5,9],[1,5],[3,9],[5,8],[1,1],[1,4]])
y = np.array([0, 1, 1, 1, 0, 0, 1, 0, 0, 0])

print('X:',X)
print('y:',y)

skf = StratifiedKFold(n_splits=4)
print(skf)

#做划分是需要同时传入数据集和标签
for train_index, test_index in skf.split(X, y):
    print('TRAIN:', train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

输出:

X: [[1 2]
 [3 4]
 [1 2]
 [3 4]
 [5 9]
 [1 5]
 [3 9]
 [5 8]
 [1 1]
 [1 4]]
y: [0 1 1 1 0 0 1 0 0 0]
StratifiedKFold(n_splits=4, random_state=None, shuffle=False)
TRAIN: [2 3 5 6 7 8 9] TEST: [0 1 4]
TRAIN: [0 1 3 4 6 8 9] TEST: [2 5 7]
TRAIN: [0 1 2 4 5 6 7 9] TEST: [3 8]
TRAIN: [0 1 2 3 4 5 7 8] TEST: [6 9]

3、疑问:

(1) 分隔时skf.split(X,y)的输出到底是个什么东西?
(2) 为什么可以用for循环去读取?

python中的生成器(generator)

python中的生成器(generator)总结_Python 学习者的博客-CSDN博客_python的generator

参考:KFold与StratifiedKFold_ZhangJingHuaJYO的博客-CSDN博客

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值