MNIST数据集的简单读取(搬砖)

今天看到了很多读取数据集的代码,思想就一个吧了解数据集存储结构,然后设计函数读取。

https://www.jianshu.com/p/e7c286530ab9
看了这位老哥的代码,稍微改一下,加了个标注,自己总结一下。

1.mnist数据集很好下载,这里不贴链接了。下载后是这样的在这里插入图片描述
2.然后解压,这里包括60000张训练数据,10000张测试数据在这里插入图片描述
3.里面的具体结构是这样的在这里插入图片描述
4.前16个字节是描述信息,后面是数据信息,一张图片分成2825个字节存储,如测试数据集有10000张图片,前8个字节是描述信息,整个文件的大小也就是610000+8=60008字节,对比属性信息发现正确在这里插入图片描述
5.代码如下

#coding:utf-8
#Author:**
#@Time :2020/10/16 21:49
'''将二进制格式的MNIST数据集转成.jpg图片格式并保存,图片标签包含在图片名中'''
import numpy as np
import cv2
import os

def save_mnist_to_jpg(mnist_image_file, mnist_label_file, save_dir):    #三个参数,mnist训练集、标签、提取后存储文件

    # os.path.basename主要用于返回后面的文件名判断文件是数据集还是标签集
    # 依据标签值区分数据集、标签集
    if 'train' in os.path.basename(mnist_image_file):
        num_file = 60000
        prefix = 'train'    #做一个标注
    else:
        num_file = 10000
        prefix = 'test'

    #打开文件并读入到对应点列表中
    with open(mnist_image_file, 'rb') as f1:
        image_file = f1.read()
    with open(mnist_label_file, 'rb') as f2:
        label_file = f2.read()
    image_file = image_file[16:]        #抛弃mnist数据集前16个无关字节内容,从此以后读取
    label_file = label_file[8:]
    c=0
    for i in range(num_file):   #读取元素数量次

        label = int(label_file[i])#.encode('hex'), 16)  #本来需要数据转换,但python3对其进行了改进,读出16字节会自动转换为int类型

        image_list = [int(item) for item in image_file[i*784:i*784+784]]    #每个图片占28*28字节空间,逐一读取

        image_np = np.array(image_list, dtype=np.uint8).reshape(28,28,1)    ##利用numpy库对读出数据进行格式转换为图片形式

        c = i + 1   #调整标签,使之更美观,标签对应

        save_name = os.path.join(save_dir, '{}_{}_{}.jpg'.format(prefix, c, label)) #保存进对应图片中,即将对应标签打入到图片中(图片命名)

        cv2.imwrite(save_name, image_np)#输出打好标签的图像

        print ('{} ==> {}_{}_{}.jpg'.format(i, prefix, c, label))


'''
主函数
'''

if __name__ == '__main__':

    #读取文件到列表
    train_image_file = './train-images.idx3-ubyte'
    train_label_file = './train-labels.idx1-ubyte'
    test_image_file = 't10k-images.idx3-ubyte'
    test_label_file = './t10k-labels.idx1-ubyte'

    #将最后读取到的数据集存到指定文件中
    save_train_dir = './train_images/'
    save_test_dir ='./test_images/'

    if not os.path.exists(save_train_dir):  #检查文件是否存在
        os.makedirs(save_train_dir)         #用于递归创建目录。如果子目录创建失败或者已经存在,会抛出一个 OSError 的异常,
                                            # Windows上Error 183 即为目录已经存在的异常错误。
    if not os.path.exists(save_test_dir):
        os.makedirs(save_test_dir)

    #调用函数开始执行存储(传入参数)
    save_mnist_to_jpg(train_image_file, train_label_file, save_train_dir)
    save_mnist_to_jpg(test_image_file, test_label_file, save_test_dir)

6.运行结果如下:
测试数据集
在这里插入图片描述
训练训练集在这里插入图片描述
7. 总结
目前只是比较简单的读取数据,之后的匹配程序,然后训练还有待完善

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值