深度学习之Tensorflow(第二节)

线程队列与IO操作

在计算争分夺秒的时候,需要去提高IO读取的速度?我们都知道操作系统里的IO速度是个瓶颈,如果还像以前那样用单核的那种多线程的话,肯定是不行的。单核的那种多线程是假的多线程,仅仅是用一块cpu利用人无法想象的速度换入换出任务,给人的一种一个cpu能同时处理多个任务。而在tensorflow里,可以做到真正的多线程,真的是几个cpu同时来搞。
在这里插入图片描述
如上图所示,我们拿读取数据并训练这个需求来举例。如果我们仅仅用一个线程去搞这个需求,训练数据这个子需求就要等待读取数据这个子需求搞完了才能搞。所以我们让主线程去训练数据,子线程去读取数据!!读取数据的时候用队列来实现先进先出。

Tensorflow队列

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
案例:完成一个出队列、+1、入队列操作(同步操作)

# 模拟一下同步先处理数据,然后才能取数据训练
# tensorflow当中,运行操作有依赖性

# # 1、首先定义队列
Q = tf.FIFOQueue(3, tf.float32)
#
# # 放入一些数据,这里这种写法是要与张量做区别,[,,]这种默认是张量
enq_many = Q.enqueue_many([[0.1, 0.2, 0.3], ])
#
 # 2、定义一些处理数据的螺距,取数据的过程      取数据,+1, 入队列
#
out_q = Q.dequeue()
#
data = out_q + 1
#
en_q = Q.enqueue(data)
#
with tf.Session() as sess:
#     # 初始化队列
     sess.run(enq_many)
#
#     # 处理数据
     for i in range(100):
         sess.run(en_q)
#
#     # 训练数据
     for i in range(Q.size().eval()):
         print(sess.run(Q.dequeue()))

在这里插入图片描述

分析:当数据量很大时,入队操作从硬盘中读取数据,放入内存中,主线程需要等待入队操作完成,才能进行训练。会话里可以运行多个线程,实现异步读取。
队列管理器
在这里插入图片描述
通过队列管理器来实现变量加1,入队,主线程出队列的操作,观察效果?(异步操作)

# 模拟异步子线程 存入样本, 主线程 读取样本

# # 1、定义一个队列,1000
Q = tf.FIFOQueue(1000, tf.float32)
#
# #2、定义要做的事情 循环 值,+1, 放入队列当中
var = tf.Variable(0.0)
#
# # 实现一个自增  tf.assign_add,自增一定要是变量
data = tf.assign_add(var, tf.constant(1.0))
#
en_q = Q.enqueue(data)
#
# # 3、定义队列管理器op, 指定多少个子线程,子线程该干什么事情
qr = tf.train.QueueRunner(Q, enqueue_ops=[en_q] * 2)
#
# # 初始化变量的OP
init_op = tf.global_variables_initializer()
#
with tf.Session() as sess:
#     # 初始化变量
     sess.run(init_op)
#
#     # 开启线程管理器
     coord = tf.train.Coordinator()
#
#     # 真正开启子线程,仅仅是对qr开启线程
     threads = qr.create_threads(sess, coord=coord, start=True)
#
#     # 主线程,不断读取数据训练
     for i in range(300):
        print(sess.run(Q.dequeue()))
#
#     # 回收你
     coord.request_stop()
#
     coord.join(threads)

注意,如果不设置线程管理器,那么主线程满300次之后会话就关闭了,而子线程还在跑,但此时会话已关闭,session都没了,那就gg了。

文件读取

文件读取流程
在这里插入图片描述
在这里插入图片描述
文件读取API-文件队列构造
在这里插入图片描述
文件读取API-文件阅读器

在这里插入图片描述
在这里插入图片描述
文件读取API-文件内容解码器
在这里插入图片描述
开启线程操作
在这里插入图片描述
管道读端批处理
在这里插入图片描述
案例:如果读取的文件为多个或者样本数量为多个,怎么去管道读取?

# 批处理大小,跟队列,数据的数量没有影响,只决定 这批次取多少数据
def csvread(filelist):
    """
    读取CSV文件
    :param filelist: 文件路径+名字的列表
    :return: 读取的内容
    """
    # 1、构造文件的队列
    file_queue = tf.train.string_input_producer(filelist)

    # 2、构造csv阅读器读取队列数据(按一行)
    reader = tf.TextLineReader()

    key, value = reader.read(file_queue)

    # 3、对每行内容解码
    # record_defaults:指定每一个样本的每一列的类型,指定默认值[["None"], [4.0]]
    records = [["None"], ["None"]]

    example, label = tf.decode_csv(value, record_defaults=records)

    # 4、想要读取多个数据,就需要批处理
    example_batch, label_batch = tf.train.batch([example, label], batch_size=9, num_threads=1, capacity=9)

    print(example_batch, label_batch)
    return example_batch, label_batch
    if __name__=="__main__":
    ## 返回当前目录下的文件名,是个列表
    file_name=os.listdir("./data")
    ## 拼接每个文件的完整路径
    filelist = [os.path.join("./data",file) for file in file_name]
    example_batch,label_batch = csvread(filelist)
    with tf.Session() as  sess:
        coord=tf.train.Coordinator()
        #开启读文件的线程
        threads=tf.train.start_queue_runners(sess,coord=coord)
        #打印读取的内容,默认只读取一条数据,随机在该目录下的某个文件读取,要想多读数据,只能批处理
        print(sess.run([example_batch,label_batch]))
        # 回收你
        coord.request_stop()
        #
        coord.join(threads)

在这里插入图片描述

图像读取

在这里插入图片描述
图像数字化三要素
在这里插入图片描述
左边的黑白图片通道数为1,在[0~255]之间取值,右边的彩图通道数为3,也就是RGB值!!
三要素与张量的关系
在这里插入图片描述
图像基本操作
在这里插入图片描述
在这里插入图片描述
在图像识别时每个像素点都是一个特征,如果是彩色,还要再乘上RGB这三个特征。然后在处理图片时,要适当缩放,注意不是裁剪!!
图像基本操作API
在这里插入图片描述
在这里插入图片描述
代码如下:

def picread(filelist):
    """
    读取狗图片并转换成张量
    :param filelist: 文件路径+ 名字的列表
    :return: 每张图片的张量
    """
    # 1、构造文件队列
    file_queue = tf.train.string_input_producer(filelist)

    # 2、构造阅读器去读取图片内容(默认读取一张图片)
    reader = tf.WholeFileReader()

    key, value = reader.read(file_queue)

    print(value)

    # 3、对读取的图片数据进行解码
    image = tf.image.decode_jpeg(value)

    print(image)

    # 5、处理图片的大小(统一大小)
    image_resize = tf.image.resize_images(image, [200, 200])

    print(image_resize)

    # 注意:一定要把样本的形状固定 [200, 200, 3],在批处理的时候要求所有数据形状必须定义
    image_resize.set_shape([200, 200, 3])

    print(image_resize)

    # 6、进行批处理
    image_batch = tf.train.batch([image_resize], batch_size=20, num_threads=1, capacity=20)

    print(image_batch)

    return image_batch

在这里插入图片描述

二进制文件读取

资源网站:http://www.cs.toronto.edu/~kriz/cifar.html
此网站有很多图像识别的训练素材。
在这里插入图片描述
在这里插入图片描述
示例代码:

# 定义cifar的数据等命令行参数
FLAGS = tf.app.flags.FLAGS
tf.app.flags.DEFINE_string("cifar_dir", "./data/cifar10/cifar-10-batches-bin/", "文件的目录")
tf.app.flags.DEFINE_string("cifar_tfrecords", "./tmp/cifar.tfrecords", "存进tfrecords的文件")

class CifarRead(object):
    """完成读取二进制文件, 写进tfrecords,读取tfrecords
    """
    def __init__(self, filelist):
        # 文件列表
        self.file_list = filelist

        # 定义读取的图片的一些属性
        self.height = 32
        self.width = 32
        self.channel = 3
        # 二进制文件每张图片的字节
        self.label_bytes = 1
        self.image_bytes = self.height * self.width * self.channel
        self.bytes = self.label_bytes + self.image_bytes

    def read_and_decode(self):

        # 1、构造文件队列
        file_queue = tf.train.string_input_producer(self.file_list)

        # 2、构造二进制文件读取器,读取内容, 每个样本的字节数
        reader = tf.FixedLengthRecordReader(self.bytes)

        key, value = reader.read(file_queue)

        # 3、解码内容, 二进制文件内容的解码
        label_image = tf.decode_raw(value, tf.uint8)

        print(label_image)

        # 4、分割出图片和标签数据,切除特征值和目标值
        label = tf.cast(tf.slice(label_image, [0], [self.label_bytes]), tf.int32)

        image = tf.slice(label_image, [self.label_bytes], [self.image_bytes])

        # 5、可以对图片的特征数据进行形状的改变 [3072] --> [32, 32, 3]
        image_reshape = tf.reshape(image, [self.height, self.width, self.channel])

        print(label, image_reshape)
        # 6、批处理数据
        image_batch, label_batch = tf.train.batch([image_reshape, label], batch_size=10, num_threads=1, capacity=10)

        print(image_batch, label_batch)
        return image_batch, label_batch

运行结果:
在这里插入图片描述
我们可以看到按批处理读取的话也是个张量,10是一次读几个样本,然后按32323读取。

TFRecords分析、存取

首先TFRecord是Tensorflow特有的文件格式,也是一种二进制的格式,如果仅仅用上面的cifar-10的普通处理的话我每次都要重新去读取拆分处理,是不是很麻烦??如果用了TFRecord,那么只需要上一节所返回的两个批处理结果即可,我们按TFRecord去存储去读取,效率更高。
在这里插入图片描述
TFRecords文件分析
在这里插入图片描述
TFRecords存储
在这里插入图片描述
在这里插入图片描述
TFRecords读取方法
在这里插入图片描述
在这里插入图片描述
类似于json字符串
在这里插入图片描述
代码示例:

def write_ro_tfrecords(self, image_batch, label_batch):
        """
        将图片的特征值和目标值存进tfrecords
        :param image_batch: 10张图片的特征值
        :param label_batch: 10张图片的目标值
        :return: None
        """
        # 1、建立TFRecord存储器
        writer = tf.python_io.TFRecordWriter(FLAGS.cifar_tfrecords)

        # 2、循环将所有样本写入文件,每张图片样本都要构造example协议
        for i in range(10):
            # 取出第i个图片数据的特征值和目标值
            #eval是取出张量里面的值,然后用tostring转成字符串
            image = image_batch[i].eval().tostring()
##eval必须放在session里才行,也就是当前方法要放在session里
            label = int(label_batch[i].eval()[0])

            # 构造一个样本的example
            example =  tf.train.Example(features=tf.train.Features(feature={
                "image": tf.train.Feature(bytes_list=tf.train.BytesList(value=[image])),
                "label": tf.train.Feature(int64_list=tf.train.Int64List(value=[label])),
            }))

            # 写入单独的样本,数据持久化要先序列化
            writer.write(example.SerializeToString())

        # 关闭
        writer.close()
        return None

    def read_from_tfrecords(self):

        # 1、构造文件队列
        file_queue = tf.train.string_input_producer([FLAGS.cifar_tfrecords])

        # 2、构造文件阅读器,读取内容example,value=一个样本的序列化example
        reader = tf.TFRecordReader()

        key, value = reader.read(file_queue)

        # 3、解析example
        features = tf.parse_single_example(value, features={
            "image": tf.FixedLenFeature([], tf.string),
            "label": tf.FixedLenFeature([], tf.int64),
        })

        # 4、解码内容, 如果读取的内容格式是string需要解码, 如果是int64,float32不需要解码
        image = tf.decode_raw(features["image"], tf.uint8)

        # 固定图片的形状,方便与批处理
        image_reshape = tf.reshape(image, [self.height, self.width, self.channel])

        label = tf.cast(features["label"], tf.int32)

        print(image_reshape, label)

        # 进行批处理
        image_batch, label_batch = tf.train.batch([image_reshape, label], batch_size=10, num_threads=1, capacity=10)

        return image_batch, label_batch
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值