狗品种识别

最新推荐文章于 2023-11-30 14:32:36 发布

Crazy - ?

最新推荐文章于 2023-11-30 14:32:36 发布

阅读量1k

点赞数 2

文章标签： pytorch

本文链接：https://blog.csdn.net/weixin_46310125/article/details/104491769

版权

本文介绍如何在Kaggle的犬种识别挑战中使用PyTorch进行图像分类。首先，介绍了数据集的结构和预处理，接着通过加载和微调ResNet18模型进行训练，最后对测试集进行预测。

摘要由CSDN通过智能技术生成

Kaggle竞赛中的犬种识别挑战，比赛的网址是https://www.kaggle.com/c/dog-breed-identification 在这项比赛中，尝试确定120种不同的狗。该比赛中使用的数据集实际上是著名的ImageNet数据集的子集。

基本思路

加载自定义数据集
微调ResNet18模型
训练模型

基于pytorch的代码

日常导入需要用到的python库

import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
from torchvision import transforms, datasets, models

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

np.random.seed(0)
torch.manual_seed(0)

加载数据集

使用的是比赛网址上下载数据集, 格式如下

| Dog Breed Identification
| train
| | 000bec180eb18c7604dcecc8fe0dba07.jpg
| | 00a338a92e4e7bf543340dc849230e75.jpg
| | …
| test
| | 00a3edd22dc7859c487a64777fc8d093.jpg
| | 00a6892e5c7f92c1f465e213fd904582.jpg
| | …
| labels.csv
| sample_submission.csv

我们要将他转换成pytorch能识别的格式, 如下

| train_valid_test
| train
| | affenpinscher
| | | 00ca18751837cd6a22813f8e221f7819.jpg
| | | …
| | afghan_hound
| | | 0a4f1e17d720cdff35814651402b7cf4.jpg
| | | …
| | …
| valid
| | affenpinscher
| | | 56af8255b46eb1fa5722f37729525405.jpg
| | | …
| | afghan_hound
| | | 0df400016a7e7ab4abff824bf2743f02.jpg
| | | …
| | …
| train_valid
| | affenpinscher
| | | 00ca18751837cd6a22813f8e221f7819.jpg
| | | …
| | afghan_hound
| | | 0a4f1e17d720cdff35814651402b7cf4.jpg
| | | …
| | …
| test
| | unknown
| | | 00a3edd22dc7859c487a64777fc8d093.jpg
| | | …

先设置文件路径

all_path = "/home/kesci/input/Kaggle_Dog6357/dog-breed-identification"
test_path = "test"
train_path = "train"
train_label_path = "labels.csv"
valid_path = "valid"

更据上面的路径去调整文件路径,
加载完后方便我们加载数据

# 操作文件
import os
# 拷贝文件
import shutil
def make_dir(path):
    """
        判断路径是否存在：
            False：创建该路径
    """
    if not os.path.exists(os.path.join(*path)):
        os.makedirs(os.path.join(*path))
        

def get_dog_data(root_path, train_path, label_path, test_path, valid_path,  valid_alpha=.3):
                
    new_dir = "new_dir"
    # 加载训练集图片文件名
    train_names = os.listdir(os.path.join(root_path, train_path))
    np.random.shuffle(train_names)
    # 加载训练集标签
    labels_csv = pd.read_csv(os.path.join(root_path