from_tensor_slices(tensors)
- tensors: 输入可以是一个或者多个 tensor,若是多个 tensor,需要以元组的形式组装起来;另外所有的输入对象,在 “axis = 0” 即第一个维度上,必须有相同的 “shape”。
- Dataset 内部元素的状态:生成 Dataset 时, 首先会扫描所有输入,然后在第一个维度上进行切片,返回的 Dataset 中的每个元素取决于输入对象,即输入对象在第一个维度上进行粒度为1的切片,切片后的每个元素就是返回的Dataset 中每个元素的内容。若输入有多个对象, 则在每个对象的第一个维度切片后的信息以元组的形式组合起来, 称为 Dataset 中的元素。
# a 在第一个维度上的 shape = (3, )
a = tf.constant(([1,2,3],[4,5,6]))
# <TensorSliceDataset shapes: (3,), types: tf.int32>
print(tf.data.Dataset.from_tensor_slices(a))
# 当输入有多个时
# <TensorSliceDataset shapes: ((3,), (3,)), types: (tf.int32, tf.int32)>
print(tf.data.Dataset.from_tensor_slices((a,a)))
from_tensors(tensors)
- 输入与 from_tensor_slices() 相似,但 from_tensors() 会将所有输入压缩称为一个元素,不会沿着第一个维度以粒度为1进行切片。
# <TensorDataset shapes: (2, 3), types: tf.int32>
print(tf.data.Dataset.from_tensors(a))
# <TensorDataset shapes: ((2, 3), (2, 3)), types: (tf.int32, tf.int32)>
print(tf.data.Dataset.from_tensors(a, a))
from_generator(generator, output_types, output_shapes, args)
- generator : 自定义的生成器对象,用于生成构建 Dataset 所需的元素。
- output_shapes 和 output_types : 指生成器生成的元素的形状与格式
- args : 调用自定义生成器所需的参数,需要以元组的形式组装起来
- 不同于 from_tensors()、from_tensor_slices(),这两种方式是一次性读取生成 Dataset 所需的全部元素, 而 from_generator() 则是一次生成一个所需的元素,当数据量非常大时,应该采用第二种方式。
参考资料