[ 数据集 ] MINIST 数据集介绍


🤵 AuthorHorizon John

编程技巧篇各种操作小结

🎇 机器视觉篇会变魔术 OpenCV

💥 深度学习篇简单入门 PyTorch

🏆 神经网络篇经典网络模型

💻 算法篇再忙也别忘了 LeetCode


MINIST

Size: 28×28 灰度手写数字图像
Num: 训练集 60000 和 测试集 10000,一共70000张图片
Classes: 0,1,2,3,4,5,6,7,8,9

在这里插入图片描述


官方下载链接MINIST


数据集读取

1)MNIST数据集文件夹

在这里插入图片描述
一共包含四个文件夹:
train-images-idx3-ubyte.gz:训练集图像(9912422 字节)55000张训练集 + 5000张验证集;
train-labels-idx1-ubyte.gz:训练集标签(28881 字节)训练集对应的标签;
t10k-images-idx3-ubyte.gz:测试集图像(1648877 字节)10000张测试集;
t10k-labels-idx1-ubyte.gz:测试集标签(4542 字节)测试集对应的标签;


2)读取MNIST数据集

如果数据集没有下载,修改参数:download=True

from torchvision import datasets, transforms

train_data = datasets.MNIST(root="./MNIST", 
                            train=True, 
                            transform=transforms.ToTensor(), 
                            download=False)

test_data = datasets.MNIST(root="./MNIST", 
                           train=False, 
                           transform=transforms.ToTensor(), 
                           download=False)

print(train_data)
print(test_data)

输出结果:

Dataset MNIST
    Number of datapoints: 60000
    Root location: ./MNIST
    Split: Train
    StandardTransform
Transform: ToTensor()

Dataset MNIST
    Number of datapoints: 10000
    Root location: ./MNIST
    Split: Test
    StandardTransform
Transform: ToTensor()

完整的数据集读取代码:

from torchvision import datasets, transforms
from torch.utils.data import DataLoader

train_data = datasets.MNIST(root="./MNIST",
                            train=True,
                            transform=transforms.ToTensor(),
                            download=False)

test_data = datasets.MNIST(root="./MNIST",
                           train=False,
                           transform=transforms.ToTensor(),
                           download=False)

train_loader = DataLoader(dataset=train_data,
                          batch_size=64,
                          shuffle=True)

test_loader = DataLoader(dataset=test_data,
                         batch_size=64,
                         shuffle=True)

数据可视化

以训练集为例:

import torchvision
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import numpy as np
import matplotlib.pyplot as plt

train_data = datasets.MNIST(root="./MNIST",
                            train=True,
                            transform=transforms.ToTensor(),
                            download=False)

train_loader = DataLoader(dataset=train_data,
                          batch_size=64,
                          shuffle=True)

for num, (image, label) in enumerate(train_loader):
    image_batch = torchvision.utils.make_grid(image, padding=2)
    plt.imshow(np.transpose(image_batch.numpy(), (1, 2, 0)), vmin=0, vmax=255)
    plt.show()
    print(label)

1)image :
在这里插入图片描述

2)label

tensor([1, 8, 9, 6, 8, 9, 9, 9, 4, 0, 4, 9, 0, 1, 6, 5, 2, 6, 1, 6, 4, 2, 8, 5,
        1, 7, 7, 8, 9, 3, 5, 0, 8, 9, 3, 6, 5, 4, 0, 2, 4, 2, 4, 5, 8, 7, 1, 5,
        9, 8, 6, 8, 6, 8, 3, 8, 7, 7, 3, 0, 8, 6, 2, 0])


以下是一个基本的感知机分类MNIST数据集的例子,适合初学者理解: ```python import numpy as np import matplotlib.pyplot as plt from tensorflow.keras.datasets import mnist # 加载MNIST数据集 (x_train, y_train), (x_test, y_test) = mnist.load_data() # 将图像数据展平成一维数组 x_train = x_train.reshape(60000, 784) x_test = x_test.reshape(10000, 784) # 将像素值归一化到[0, 1]区间 x_train = x_train / 255 x_test = x_test / 255 # 将标签转换为0和1 y_train = np.where(y_train == 0, 1, -1) y_test = np.where(y_test == 0, 1, -1) # 定义感知机模型 class Perceptron(object): def __init__(self, learning_rate=0.1, max_iter=1000): self.learning_rate = learning_rate self.max_iter = max_iter def fit(self, X, y): self.w = np.zeros(X.shape[1]) self.b = 0 for i in range(self.max_iter): for xi, yi in zip(X, y): if yi * (np.dot(xi, self.w) + self.b) <= 0: self.w += self.learning_rate * yi * xi self.b += self.learning_rate * yi def predict(self, X): return np.sign(np.dot(X, self.w) + self.b) # 训练感知机模型 model = Perceptron() model.fit(x_train, y_train) # 在测试集上评估模型 acc = np.mean(model.predict(x_test) == y_test) print(f"Accuracy: {acc}") # 可视化权重 plt.imshow(model.w.reshape(28, 28), cmap="gray") plt.axis("off") plt.show() ``` 此代码使用MNIST数据集来训练一个感知机模型,将图像数据展平为一个一维数组,并将像素值归一化到[0, 1]区间。然后,将标签转换为0和1,其中1表示数字“0”。定义了一个`Perceptron`类来实现感知机模型。在训练期间,使用`fit`方法来更新权重和偏置,直到达到最大迭代次数或训练误差为零为止。最后,使用`predict`方法在测试集上进行预测,并计算模型的准确度。还可视化模型的权重。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Horizon John

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值