Google Colab 调用kaggle上的数据训练pytorch项目

最新推荐文章于 2023-01-31 14:14:34 发布

神兽乌鸦

最新推荐文章于 2023-01-31 14:14:34 发布

阅读量307

点赞数

分类专栏： pytorch 文章标签：深度学习

本文链接：https://blog.csdn.net/zhangdongren/article/details/116710646

版权

pytorch 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本篇文章基于《Colab在线解压Google Driver上的zip压缩文件》，所以有不懂的同学建议一并看完上一篇文章的内容，再来学习本篇文章。

做深度学习需要大量的数据来进行训练，Kaggle上有很多现成的数据，本篇文章的目的就是把数据下载过来，然后训练。

一、你需要再Kaggle上创建一个账号，然后按照下图去创建一个token

在这里插入图片描述
点击Create New API Token按钮后会提示下载kaggle.json文件，保存到本地。

二、把下载的kaggle.json上传到Google云盘

在这里插入图片描述
存放的目录你自己可以随意发挥。

三、通过代码把Google硬盘挂载到Colab上，并把kaggle.json到Colab上

# 挂载谷歌硬盘
!pip install googledrivedownloader
# 加载硬盘上的文件,参数分别是：文件id，保存目录，是否解压
from google_drive_downloader import GoogleDriveDownloader as gdd
gdd.download_file_from_google_drive(file_id='1MOWnZpC5CxUIVifRN98Dy3nNEE0dV9NH',
                                    dest_path='/content/kaggle/kaggle.json',
                                    unzip=False)

这一部分是上一篇文章《Colab在线解压Google Driver上的zip压缩文件》的知识了，不清楚的可以移步去看看。

四、挂载Kaggle

import os
os.environ['KAGGLE_CONFIG_DIR'] = "/content/kaggle"

五、把/content/kaggle切换为当前目录

os.chdir('/content/kaggle')

六、把数据从Kaggle上下载到Colab上

!kaggle datasets download -d moltean/fruits

七、解压数据

!unzip /content/kaggle/fruits.zip

八、调用数据进行训练

import torch
import os
import torchvision
import numpy as np
import matplotlib.pyplot as plt
import torch.nn as nn
import torchvision.models as models
import torch.nn.functional as F
from torchvision.datasets import ImageFolder
from torchvision.transforms import ToTensor
from torchvision.utils import make_grid
from torch.utils.data.dataloader import DataLoader
from torch.utils.data import random_split
import torchvision.models as models
%matplotlib inline

epochs = 10
max_lr = 0.01
grad_clip = 0.1
weight_decay = 1e-4
opt_func = torch.optim.Adam
device = torch.device('cuda')

data_dir = '/content/kaggle/fruits-360'

dataset = ImageFolder(data_dir + '/Training', transform=ToTensor())
img, label = dataset[0]
print(img.shape, label) 
img

val_size = 625
batch_size=32
train_size = len(dataset) - val_size
train_ds, val_ds = random_split(dataset, [train_size, val_size])
val_dl = DataLoader(val_ds, batch_size*2, num_workers=4, pin_memory=True)
train_dl = DataLoader(train_ds, batch_size, shuffle=True, num_workers=4, pin_memory=True)
val_dl = DataLoader(val_ds, batch_size*2, num_workers=4, pin_memory=True)

def to_device(data, device):
    """Move tensor(s) to chosen device"""
    if isinstance(data, (list,tuple)):
        return [to_device(x, device) for x in data]
    return data.to(device, non_blocking=True)

class DeviceDataLoader():
    """Wrap a dataloader to move data to a device"""
    def __init__(self, dl, device):
        self.dl = dl
        self.device = device
        
    def __iter__(self):
        """Yield a batch of data after moving it to device"""
        for b in self.dl: 
            yield to_device(b, self.device)

    def __len__(self):
        """Number of batches"""
        return len(self.dl)
    
def show_example(img, label):
    print('Label: ', dataset.classes[label], "("+str(label)+")")
    plt.imshow(img.permute(1, 2, 0))
    
def get_lr(optimizer):
    for param_group in optimizer.param_groups:
        return param_group['lr']

def accuracy(outputs, labels):
    _, preds = torch.max(outputs, dim=1)
    return torch.tensor(torch.sum(preds == labels).item() / len(preds))
    
class ImageClassificationBase(nn.Module):
    def training_step(self, batch):
        images, labels = batch 
        out = self(images)                  # Generate predictions
        loss = F.cross_entropy(out, labels) # Calculate loss
        return loss
    
    def validation_step(self, batch):
        images, labels = batch 
        out = self(images)                    # Generate predictions
        loss = F.cross_entropy(out, labels)   # Calculate loss
        acc = accuracy(out, labels)           # Calculate accuracy
        return {'val_loss': loss.detach(), 'val_acc': acc}
        
    def validation_epoch_end(self, outputs):
        batch_losses = [x['val_loss'] for x in outputs]
        epoch_loss = torch.stack(batch_losses).mean()   # Combine losses
        batch_accs = [x['val_acc'] for x in outputs]
        epoch_acc = torch.stack(batch_accs).mean()      # Combine accuracies
        return {'val_loss': epoch_loss.item(), 'val_acc': epoch_acc.item()}
    
    def epoch_end(self, epoch, result):
        print("Epoch [{}], train_loss: {:.4f}, val_loss: {:.4f}, val_acc: {:.4f}".format(
            epoch, result['train_loss'], result['val_loss'], result['val_acc']))

def conv_block(in_channels, out_channels, pool=False):
    layers = [nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1), 
              nn.BatchNorm2d(out_channels), 
              nn.ReLU(inplace=True)]
    if pool: layers.append(nn.MaxPool2d(2))
    return nn.Sequential(*layers)

class ResNet9(ImageClassificationBase):
    def __init__(self, in_channels, num_classes):
        super().__init__()
        
        self.conv1 = conv_block(in_channels, 64)
        self.conv2 = conv_block(64, 128, pool=True)
        self.res1 = nn.Sequential(conv_block(128, 128), conv_block(128, 128))
        
        self.conv3 = conv_block(128, 256, pool=True)
        self.conv4 = conv_block(256, 512, pool=True)
        self.res2 = nn.Sequential(conv_block(512, 512), conv_block(512, 512))
        
        self.classifier = nn.Sequential(nn.MaxPool2d(4), 
                                        nn.Flatten(), 
                                        nn.Linear(4608, num_classes))
        
    def forward(self, xb):
        out = self.conv1(xb)
        out = self.conv2(out)
        out = self.res1(out) + out
        out = self.conv3(out)
        out = self.conv4(out)
        out = self.res2(out) + out
        out = self.classifier(out)
        return out

model = to_device(ResNet9(3, 131), device)
model

train_dl = DeviceDataLoader(train_dl, device)
val_dl = DeviceDataLoader(val_dl, device)
to_device(model, device);

def evaluate(model, val_loader):
    outputs = [model.validation_step(batch) for batch in val_loader]
    return model.validation_epoch_end(outputs)

history = []

def plot_accuracies(history):
    accuracies = [x['val_acc'] for x in history]
    plt.plot(accuracies, '-x')
    plt.xlabel('epoch')
    plt.ylabel('accuracy')
    plt.title('Accuracy vs. No. of epochs');

def plot_losses(history):
    train_losses = [x.get('train_loss') for x in history]
    val_losses = [x['val_loss'] for x in history]
    plt.plot(train_losses, '-bx')
    plt.plot(val_losses, '-rx')
    plt.xlabel('epoch')
    plt.ylabel('loss')
    plt.legend(['Training', 'Validation'])
    plt.title('Loss vs. No. of epochs');

def fit_one_cycle(epochs, max_lr, model, train_loader, val_loader, 
                  weight_decay=0, grad_clip=None, opt_func=torch.optim.SGD):
    torch.cuda.empty_cache()
    
    # Set up cutom optimizer with weight decay
    optimizer = opt_func(model.parameters(), max_lr, weight_decay=weight_decay)
    # Set up one-cycle learning rate scheduler
    sched = torch.optim.lr_scheduler.OneCycleLR(optimizer, max_lr, epochs=epochs, 
                                                steps_per_epoch=len(train_loader))
    
    for epoch in range(epochs):
        # Training Phase 
        model.train()
        train_losses = []
        lrs = []
        for batch in train_loader:
            loss = model.training_step(batch)
            train_losses.append(loss)
            loss.backward()
            
            # Gradient clipping
            if grad_clip: 
                nn.utils.clip_grad_value_(model.parameters(), grad_clip)
            
            optimizer.step()
            optimizer.zero_grad()
            
            # Record & update learning rate
            lrs.append(get_lr(optimizer))
            sched.step()
        
        # Validation phase
        result = evaluate(model, val_loader)
        result['train_loss'] = torch.stack(train_losses).mean().item()
        result['lrs'] = lrs
        model.epoch_end(epoch, result)
        history.append(result)
        
        history += history

        plot_accuracies(history)
        plot_losses(history)

    return history

fit_one_cycle(epochs, max_lr, model, train_dl, val_dl, 
                             grad_clip=grad_clip, 
                             weight_decay=weight_decay, 
                             opt_func=opt_func)

我这里是做一个水果分类器，懒得解释了，直接上代码了，读取数据的代码是：


data_dir = '/content/kaggle/fruits-360'

dataset = ImageFolder(data_dir + '/Training', transform=ToTensor())
img, label = dataset[0]
print(img.shape, label) 
img

好了，本篇文章到此结束，有不懂的加群讨论吧463255841

神兽乌鸦

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Google Colab 调用kaggle上的数据训练pytorch项目

本篇文章基于《Colab在线解压Google Driver上的zip压缩文件》，所以有不懂的同学建议一并看完上一篇文章的内容，再来学习本篇文章。做深度学习需要大量的数据来进行训练，Kaggle上有很多现成的数据，本篇文章的目的就是把数据下载过来，然后训练。一、你需要再Kaggle上创建一个账号，然后按照下图去创建一个token点击Create New API Token按钮后会提示下载kaggle.json文件，保存到本地。二、把下载的kaggle.json上传到Google云盘存放的目录你自
复制链接

扫一扫