一个关于tf.data的简介

原视频地址在这儿:https://www.youtube.com/watch?v=uIcqeP7MFH0

视频中介绍了tf.data设计的一些原则和一些基本用法。设计的三个原则:

1. 快速高效

tf.data可以在每秒读取13000张图片,官网上有一页专门介绍输入数据pipeline的效率。输入输入的pipeline分为以下三步(ETL)

分别是从数据源头处读取数据(Extract)(比如内存,磁盘,远程服务器,云端)、对数据做一系列的变换(Transform)、载入CPU或者GPU(Load)等等,下面是一个例子,ETL分别代表这三个步骤:

小技巧

  1. 如果从云端或者多个来源读取数据,很显然并行读取可以提升读取效率,这个操作可以通过简单的num_parallel_reads参数来完成,如:tf.data.TFRecordDataset(files, num_parallel_reads=32)
  2. 利用contrib模块的一些函数,提高数据transform阶段的速度,这些函数可以将transform阶段的多个不同操作融合到一起来做,以提高运行效率,如:
dataset = dataset.apply(tf.contrib.data.shuffle_and_repeat(10000, NUM_EPOCHS))
dataset = dataset.apply(tf.contrib.data.map_and_batch(lambda x: ...., BATCH_SIZE))
  1. 利用GPU prefetch提前吧数据在使用前加载到GPU
dataset = dataset.apply(tf.contrib.data.prefetch_to_device('\gpu:0'))
  1. dataset中的数据可以通过生成迭代器来访问,如:
iterator = dataset.make_one_shot_iterator()
data = iterator.get_next()
  1. 如果对数据的效率要求比较高,或者数据集很大,建议使用TFRecord等数据类型读取数据

2. 灵活

  1. 通过dataset.map函数可以对每条数据做自定义的transform
  2. 有一个接口Dataset.from_generator()可以把原本已经写好的python的读取数据集的函数包在里面,得到Tensorflow的数据集。

3. 易用

  1. 在tf.enable_eager_execution()模式下,dataset可以被看做简单的python可迭代对象,通过for..in..来访问,并且这种模式依然是支持prefetch_to_device的
  2. 可以用一个函数打包上述所说的载入数据的三个步骤:
tf.contrib.data.make_batched_features_dataset(file_pattern, BATCH_SIZE, features, num_epochs=NUM_EPOCHS)
  1. tf.data和最新的高级API Estimator有着很好的兼容性,只要生成了数据,就可以直接灌数据而不需要任何的迭代器什么的。

关于tf.data的Example

 

参考网址:

  1. https://www.e-learn.cn/content/qita/792117
  2. https://zhuanlan.zhihu.com/p/37106443
  3. https://www.datalearner.com/blog/1051556350245210#6%E3%80%81%E4%BD%BF%E7%94%A8tqdm%E5%BE%AA%E7%8E%AF%E8%BE%93%E5%87%BA
  4. https://blog.csdn.net/tiangcs/article/details/85952007
  5. https://blog.csdn.net/u014061630/article/details/80728694
  6. https://zhuanlan.zhihu.com/p/30751039
  7. https://www.jianshu.com/p/d80ea5d73446
  8. https://www.tensorflow.org/guide/datasets?hl=zh-cn#consuming_text_data
  9. https://www.jianshu.com/p/baf1a933dd79
  10. https://blog.csdn.net/wangdongwei0/article/details/82991048
  11. https://www.jianshu.com/p/f580f4fc2ba0
  12. https://www.jianshu.com/p/d80ea5d73446
  13. https://blog.csdn.net/weixin_42499236/article/details/83933629
  14. https://blog.csdn.net/qq_37747262/article/details/81912438
  15. https://blog.csdn.net/ssmixi/article/details/80572813
  16. https://www.cnblogs.com/augustone/p/10520115.html
  17. https://blog.csdn.net/DumpDoctorWang/article/details/84028957#51_422
  18. http://www.enpeizhao.com/?p=514
  19. https://blog.csdn.net/Z609834342/article/details/83514498
  20. https://blog.csdn.net/qq_37747262/article/details/81912438
  21. https://github.com/FrancescoSaverioZuppichini/Tensorflow-Dataset-Tutorial/blob/master/.ipynb_checkpoints/dataset_tutorial-checkpoint.ipynb
  22. https://blog.csdn.net/loveliuzz/article/details/84398179#3.3%20%E5%9F%BA%E4%BA%8E%20tf.py_func%20%E4%BD%BF%E7%94%A8%20Python%20%E5%87%BD%E6%95%B0%E8%BF%9B%E8%A1%8C%E9%A2%84%E5%A4%84%E7%90%86%20%C2%B6
  23. https://blog.csdn.net/DumpDoctorWang/article/details/84028957

 

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
tf.data.DatasetTensorFlow中用于处理数据的模块,它提供了一种高效且易于使用的数据输入方式,可以处理大量的数据并且可以轻松地与TensorFlow中的其他模块集成。 使用tf.data.Dataset有以下几个步骤: 1. 创建Dataset对象 可以通过多种方式创建Dataset对象,例如: - 从Tensor创建:tf.data.Dataset.from_tensor_slices(tensor) - 从numpy数组创建:tf.data.Dataset.from_tensor_slices(numpy_array) - 从文件创建:tf.data.Dataset.from_tensor_slices(file_paths) 2. 对数据进行转换和处理 Dataset对象可以应用多种转换和处理函数,例如: - map():对每个元素应用一个函数 - filter():根据条件过滤数据 - batch():将数据分成小批次 - shuffle():随机打乱数据 可以通过链式调用这些函数来对数据进行处理和转换。 3. 创建迭代器 可以使用Dataset对象的make_one_shot_iterator()方法创建一个迭代器,该迭代器将按顺序遍历Dataset对象中的每个元素。也可以使用make_initializable_iterator()方法创建一个可初始化的迭代器,需要在使用迭代器之前调用迭代器的initialize()方法初始化。 4. 使用迭代器读取数据 可以使用迭代器的get_next()方法获取下一个元素。在使用Session运行TensorFlow图时,可以将get_next()方法的结果作为feed_dict的值传递给模型。 示例代码: ```python import tensorflow as tf # 创建Dataset对象 data = tf.data.Dataset.from_tensor_slices(tf.range(10)) # 对数据进行转换和处理 data = data.filter(lambda x: x % 2 == 0) data = data.map(lambda x: x * 2) data = data.shuffle(buffer_size=10) data = data.batch(batch_size=2) # 创建迭代器 iterator = data.make_initializable_iterator() # 使用迭代器读取数据 with tf.Session() as sess: sess.run(iterator.initializer) while True: try: batch = sess.run(iterator.get_next()) print(batch) except tf.errors.OutOfRangeError: break ``` 此代码将创建一个包含数字0到9的Dataset对象,并对其进行过滤、映射、随机打乱和分批处理。然后创建一个可初始化的迭代器,并使用Session运行TensorFlow图来逐批处理数据。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值