cifar-10学习——1、获取样本图片和标签模拟实际场景训练

最新推荐文章于 2024-09-06 23:56:13 发布

zhsf

最新推荐文章于 2024-09-06 23:56:13 发布

阅读量1.9k

点赞数 2

分类专栏：大数据/机器学习/人工智能文章标签： cifar-10 机器学习训练样本人工智能

本文链接：https://blog.csdn.net/zsf442553199/article/details/80095066

版权

大数据/机器学习/人工智能专栏收录该内容

13 篇文章 1 订阅

订阅专栏

最近想弄点样本来做个简单的图片分类，期望能找到所有的样本图片文件和标签文件，这样就可以模拟实际场景下进行机器学习了。在网上找了一番，都是打包的数据，也有解析出样本图片的，但是都不是很全，例如缺少标签。下面就尝试从cifar-10中获取所有图片和样本数据。

cifar-10 数据集介绍请看官网：

http://www.cs.toronto.edu/~kriz/cifar.html

样本共有10个分类：飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车

数据集有60000张 32x32 像素彩色图片（RGB）

注意这里的RGB很重要，在训练过程中要和MNIST区分开，因为MNIST是单色的而cifar-10是RGB的。

每个类别图片有6000张，10个类别图片共60000张 = 训练图片50000张 + 测试图片10000张。

先从官网下载样本数据集如下：

好了，有个样本数据集我们现在将样本解析成图片保存到本地，我们希望图片的命名方式可以显示出其类别，例如：1_cat.png，78_airplan.png。

打开spyder开始编写代码 cifar-10可视化.py：

import pickle as p  
import numpy as np  
from PIL import Image  
import os

#加载数据
def load_CIFAR_batch(filename):  
    with open(filename, 'rb') as f:  
        datadict = p.load(f,encoding='latin1')  
        X = datadict['data']  
        Y = datadict['labels']  
        X = X.reshape(10000, 3, 32, 32)  
        Y = np.array(Y)  
        return X, Y  
  
#将标签转换成英文       
def getLabelType(typeIndex,label):
    index = label[typeIndex]
    if index == 0:
        return "airplane"
    if index == 1:
        return "automobile"
    if index == 2:
        return "bird"
    if index == 3:
        return "cat"
    if index == 4:
        return "deer"
    if index == 5:
        return "dog"
    if index == 6:
        return "frog"
    if index == 7:
        return "horse"
    if index == 8:
        return "ship"
    if index == 9:
        return "truck"
    
#创建每个batch图片保存的文件夹   
def mkdir(path):  
    folder = os.path.exists(path)  
    if not folder:              
        os.makedirs(path)
        print("创建文件夹"+path)
        return 1
    else:
        return 0
  
    
#保存图片和标签
def saveImgAndLabel(tag):
    saveDir = "./batch_images_"+str(tag)
    if mkdir(saveDir) == 0:
        return 
    if tag == "test":
        imgX, labelX = load_CIFAR_batch("./test_batch") #加载测试数据集
    else:
        imgX, labelX = load_CIFAR_batch("./data_batch_"+str(tag)) #加载训练数据集
    for i in range(0,10000): 
        imgs = imgX[i]  
        img0 = imgs[0]  
        img1 = imgs[1]  
        img2 = imgs[2]  
        #生成image对象RGB 
        i0 = Image.fromarray(img0) 
        i1 = Image.fromarray(img1)  
        i2 = Image.fromarray(img2)  
        img = Image.merge("RGB",(i0,i1,i2)) 
        #这里是生成英文标签的名字
        label = getLabelType(i,labelX)
        name = str(i)+'_'+label+'.png'
        img.save(saveDir+"/"+name,"png") 
        print(name)

#程序入口
if __name__ == "__main__":  
    for i in range(1,7):
        if i == 6:
            saveImgAndLabel('test')
        else:
            saveImgAndLabel(i)
    print("保存完毕.")

运行完成后当前目录如下：