Tensorflow 学习笔记：Input Pipeline - Dataset

最新推荐文章于 2024-10-02 14:03:45 发布

林大虫子

最新推荐文章于 2024-10-02 14:03:45 发布

阅读量1.1w

点赞数 5

分类专栏：机器学习文章标签： Tensorflow dataset 机器学习算法 pipeline

本文链接：https://blog.csdn.net/west_609/article/details/78608541

版权

本文介绍了TensorFlow中的Dataset概念，作为机器学习算法的数据源，用于定义数据管道并提供训练数据。内容包括Dataset的结构、创建、读取方法，如从文件读取文本和图片，并通过map()进行数据预处理。

摘要由CSDN通过智能技术生成

Dataset是Tensorflow里面一个比较重要的概念，我们知道机器学习算法需要大概的数据来训练data model. 所以Dataset就是用来做这么一件重要的事情：定义数据pipline，为学习算法提供训练数据。

其实我们也可以将Dataset理解成一个数据源，指向某些包含训练数据的文件列表，或者是内存里面已有的数据结构（比如Tensor objects)。

Dataset 数据结构

组成Dataset的基本单元是element。每个element必需有相同的数据结构，其中每个element包含多个Tensor objects。比如：

# 创建一个dataset，里面包含一个2-Dimension (4x10) Tensor对象
dataset = tf.data.Dataset.from_tensor_slices(tf.random_uniform([4, 10]))

# 创建一个dataset,里面包含两个Tensor, tensor1的shape为（4x3), tensor2的shape为（4x5)
dataset2 = tf.data.Dataset.from_tensor_slices((tf.random_uniform([4, 3]), tf.random_uniform([4, 5])))

创建Dataset

前面说了Dataset可以理解成数据源，那么怎么创建一个Dataset并使它跟多个数据源关联呢？Tensorflow Dataset API提供了两种方式：

从已有的一个或者多个Tensors对象中创建
上一节的Dataset.from_tensor_slices()就是这用这种方式创建的Dataset
利用这种方式，同样地可以创建指向训练数据文件的Dataset，比如我们让每个element包含两个Tensor, 第一个Tensor指向一堆汽车的图片文件，另外一个vector tensor表示对应的图片是否为一辆卡车：
```
train_imgs = tf.constant(['train/img1.png', 'train/img2.png',
                                      
```