k折交叉验证 base

k折交叉验证是一种评估模型性能的方法,通过将数据集分成k个子集,轮流作为测试集,其余作为训练集,最后计算平均误差。10折和5折交叉验证是常用的选择,能有效减少泛化误差。
摘要由CSDN通过智能技术生成

交叉验证

交叉验证在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。

k折交叉验证

K折交叉验证(k-fold cross-validation)首先将所有数据分割成K个子样本,不重复的选取其中一个子样本作为测试集,其他K-1个样本用来训练。共重复K次,平均K次的结果或者使用其它指标,最终得到一个单一估测。

这个方法的优势在于,保证每个子样本都参与训练且都被测试,降低泛化误差。其中,10折交叉验证是最常用的,5折交叉验证也用得较多。

code

import pandas as pd
import numpy as np
from sklearn.model_selection import StratifiedKFold
import warnings
import lightgbm as lgb
from sklearn.metrics import roc_auc_score
warnings.filterwarnings('ignore')

def get_data():
    train=pd.read_csv('./data/train.csv')
    test=pd.read_csv('./data/test.csv')
    data = pd.concat([train, test], axis=0, ignore_index=True)
    data = data.fillna(-1)
    return data

def split_train_test(data):
    train_data = data[data['purchase'
在PyTorch中进行交叉验证的一种常见方法是使用K折交叉验证。下面是一个示例代码,展示了如何使用PyTorch进行K折交叉验证: 首先,将数据集的路径和标签信息写入一个txt文本文件。可以使用以下代码将数据集的路径和标签信息写入txt文本: ```python import glob import os import numpy as np base_path = "/data2/houb/K_fold/data/" image_path = \[\] for i in os.listdir(base_path): image_path.append(os.path.join(base_path, i)) sum = 0 img_path = \[\] for label, p in enumerate(image_path): image_dir = glob.glob(p + "/" + "*.JPG") sum += len(image_dir) for image in image_dir: img_path.append((image, str(label))) np.random.shuffle(img_path) file = open("shuffle_data.txt", "w", encoding="utf-8") for img in img_path: file.write(img\[0\] + ',' + img\[1\] + '\n') file.close() ``` 接下来,使用`torch.utils.data.Dataset`类来封装数据集。可以自定义一个`torch.utils.data.Dataset`的子类,来深入理解该类对数据集读取的原理。以下是一个示例代码: ```python import torch from torch.utils.data import Dataset class CustomDataset(Dataset): def __init__(self, txt_file, transform=None): self.data = \[\] with open(txt_file, 'r') as file: for line in file: image_path, label = line.strip().split(',') self.data.append((image_path, int(label))) self.transform = transform def __len__(self): return len(self.data) def __getitem__(self, idx): image_path, label = self.data\[idx\] image = Image.open(image_path) if self.transform: image = self.transform(image) return image, label dataset = CustomDataset(txt_file='shuffle_data.txt', transform=transforms.ToTensor()) ``` 然后,使用`torch.utils.data.DataLoader`类对数据集进行可迭代化处理。以下是一个示例代码: ```python train_loader = torch.utils.data.DataLoader(dataset=dataset, batch_size=10, shuffle=True, num_workers=5) ``` 最后,可以使用这个`train_loader`进行模型的训练和验证。 请注意,上述代码仅为示例,具体实现可能需要根据你的数据集和模型进行适当的修改。 #### 引用[.reference_title] - *1* *2* *3* [Pytorch最简单的图像分类——K折交叉验证处理小型鸟类数据集分类](https://blog.csdn.net/hb_learing/article/details/110411532)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值