k折交叉验证sklearn中的StratifiedKFold

最新推荐文章于 2024-06-18 21:33:08 发布

turbo624

最新推荐文章于 2024-06-18 21:33:08 发布

阅读量2.1w

点赞数 20

分类专栏： python

本文链接：https://blog.csdn.net/weixin_44110891/article/details/95240937

版权

交叉验证

交叉验证
k折交叉验证
sklearn介绍
StratifiedKFold实例

交叉验证

交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。

k折交叉验证

K折交叉验证，初始采样分割成K个子样本，一个单独的子样本被保留作为验证模型的数据，其他K-1个样本用来训练。交叉验证重复K次，每个子样本验证一次，平均K次的结果或者使用其它结合方式，最终得到一个单一估测。这个方法的优势在于，同时重复运用随机产生的子样本进行训练和验证，每次的结果验证一次，10折交叉验证是最常用的。

sklearn介绍

sklearn是机器学习中一个常用的python第三方模块，里面对一些常用的机器学习方法进行了封装，在进行机器学习任务时，并不需要每个人都实现所有的算法，只需要简单的调用sklearn里的模块就可以实现大多数机器学习任务。
机器学习任务通常包括分类（Classification）和回归（Regression），常用的分类器包括SVM、KNN、贝叶斯、线性回归、逻辑回归、决策树、随机森林、xgboost、GBDT、boosting、神经网络NN。常见的降维方法包括TF-IDF、主题模型LDA、主成分分析PCA等等。

StratifiedKFold实例

StratifiedKFold-code

import pandas as pd
import numpy as np
from sklearn.model_selection import StratifiedKFold
import warnings
import lightgbm as lgb
from sklearn.metrics import roc_auc_score
warnings.filterwarnings('ignore')

def get_data():
    train=pd.read_csv('/home/kesci/input/round11379/train_round_1.csv')
    test=pd.read_csv('/home/kesci/input/round11379/test_round_1.csv')
    data = pd.concat([train, test], axis=0, ignore_index=True)
    data &

最低0.47元/天解锁文章

turbo624

关注

20
点赞
踩
105

收藏

觉得还不错? 一键收藏
0
评论
k折交叉验证sklearn中的StratifiedKFold

交叉验证交叉验证k折交叉验证StratifiedKFold实例code交叉验证交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。k折交叉验证K折...
复制链接

扫一扫

专栏目录