今天看到了很多读取数据集的代码,思想就一个吧了解数据集存储结构,然后设计函数读取。
https://www.jianshu.com/p/e7c286530ab9
看了这位老哥的代码,稍微改一下,加了个标注,自己总结一下。
1.mnist数据集很好下载,这里不贴链接了。下载后是这样的
2.然后解压,这里包括60000张训练数据,10000张测试数据
3.里面的具体结构是这样的
4.前16个字节是描述信息,后面是数据信息,一张图片分成2825个字节存储,如测试数据集有10000张图片,前8个字节是描述信息,整个文件的大小也就是610000+8=60008字节,对比属性信息发现正确
5.代码如下
#coding:utf-8
#Author:**
#@Time :2020/10/16 21:49
'''将二进制格式的MNIST数据集转成.jpg图片格式并保存,图片标签包含在图片名中'''
import numpy as np
import cv2
import os
def save_mnist_to_jpg(mnist_image_file, mnist_label_file, save_dir): #三个参数,mnist训练集、标签、提取后存储文件
# os.path.basename主要用于返回后面的文件名判断文件是数据集还是标签集
# 依据标签值区分数据集、标签集
if 'train' in os.path.basename(mnist_image_file):
num_file = 60000
prefix = 'train' #做一个标注
else:
num_file = 10000
prefix = 'test'
#打开文件并读入到对应点列表中
with open(mnist_image_file, 'rb') as f1:
image_file = f1.read()
with open(mnist_label_file, 'rb') as f2:
label_file = f2.read()
image_file = image_file[16:] #抛弃mnist数据集前16个无关字节内容,从此以后读取
label_file = label_file[8:]
c=0
for i in range(num_file): #读取元素数量次
label = int(label_file[i])#.encode('hex'), 16) #本来需要数据转换,但python3对其进行了改进,读出16字节会自动转换为int类型
image_list = [int(item) for item in image_file[i*784:i*784+784]] #每个图片占28*28字节空间,逐一读取
image_np = np.array(image_list, dtype=np.uint8).reshape(28,28,1) ##利用numpy库对读出数据进行格式转换为图片形式
c = i + 1 #调整标签,使之更美观,标签对应
save_name = os.path.join(save_dir, '{}_{}_{}.jpg'.format(prefix, c, label)) #保存进对应图片中,即将对应标签打入到图片中(图片命名)
cv2.imwrite(save_name, image_np)#输出打好标签的图像
print ('{} ==> {}_{}_{}.jpg'.format(i, prefix, c, label))
'''
主函数
'''
if __name__ == '__main__':
#读取文件到列表
train_image_file = './train-images.idx3-ubyte'
train_label_file = './train-labels.idx1-ubyte'
test_image_file = 't10k-images.idx3-ubyte'
test_label_file = './t10k-labels.idx1-ubyte'
#将最后读取到的数据集存到指定文件中
save_train_dir = './train_images/'
save_test_dir ='./test_images/'
if not os.path.exists(save_train_dir): #检查文件是否存在
os.makedirs(save_train_dir) #用于递归创建目录。如果子目录创建失败或者已经存在,会抛出一个 OSError 的异常,
# Windows上Error 183 即为目录已经存在的异常错误。
if not os.path.exists(save_test_dir):
os.makedirs(save_test_dir)
#调用函数开始执行存储(传入参数)
save_mnist_to_jpg(train_image_file, train_label_file, save_train_dir)
save_mnist_to_jpg(test_image_file, test_label_file, save_test_dir)
6.运行结果如下:
测试数据集
训练训练集
7. 总结
目前只是比较简单的读取数据,之后的匹配程序,然后训练还有待完善