使用tf.data.Dataset.from_tensor_slices五步加载数据集

最新推荐文章于 2024-04-24 22:52:03 发布

Kevin在成长

最新推荐文章于 2024-04-24 22:52:03 发布

阅读量686

点赞数 1

文章标签： python tensorflow

原文链接：https://blog.csdn.net/rainweic/article/details/95737315

版权

原文链接
前言:
最近在学习tf2
数据加载感觉蛮方便的
这里记录下使用 tf.data.Dataset.from_tensor_slices 进行加载数据集.
使用tf2做mnist（kaggle）的代码

思路
Step0: 准备要加载的numpy数据
Step1: 使用 tf.data.Dataset.from_tensor_slices() 函数进行加载
Step2: 使用 shuffle() 打乱数据
Step3: 使用 map() 函数进行预处理
Step4: 使用 batch() 函数设置 batch size 值
Step5: 根据需要使用 repeat() 设置是否循环迭代数据集

代码

import tensorflow as tf
from tensorflow import keras

def load_dataset():
	# Step0 准备数据集, 可以是自己动手丰衣足食, 也可以从 tf.keras.datasets 加载需要的数据集(获取到的是numpy数据) 
	# 这里以 mnist 为例
	(x, y), (x_test, y_test) = keras.datasets.mnist.load_data()
	
	# Step1 使用 tf.data.Dataset.from_tensor_slices 进行加载
	db_train = tf.data.Dataset.from_tensor_slices((x, y)）
	db_test = tf.data.Dataset.from_tensor_slices((x_test, y_test))
	
	# Step2 打乱数据
	db_train.shuffle(1000)
	db_test.shuffle(1000)
	
	# Step3 预处理 (预处理函数在下面)
	db_train.map(preprocess)
	db_test.map(preprocess)

	# Step4 设置 batch size 一次喂入64个数据
	db_train.batch(64)
	db_test.batch(64)

	# Step5 设置迭代次数(迭代2次) test数据集不需要emmm
	db_train.repeat(2)

	return db_train, db_test

def preprocess(labels, images):
‘’’
最简单的预处理函数:
转numpy为Tensor、分类问题需要处理label为one_hot编码、处理训练数据
‘’’
# 把numpy数据转为Tensor
labels = tf.cast(labels, dtype=tf.int32)
# labels 转为one_hot编码
labels = tf.one_hot(labels, depth=10)
# 顺手归一化
images = tf.cast(images, dtype=tf.float32) / 255
return labels, images

one_hot 编码: 解释（我在使用自带的fit函数进行训练的时候，发现报错维度不正确，原来是不需要one_hot编码）

shuffle()函数的数值: 源码链接, 内容我贴图了
函数定义源码
我找到一个比较好的解释: 简书

我发现自己的数据使用tf.data.Dataset.from_tensor_slices（x, y）加载时， 一定要x在前y在后。。。没仔细看函数说明，否则会导致bug的emmm

使用了该函数之后， fit的时候是不支持 validation_split 这个参数提供的功能的~

总结
五个步骤很重要比较简单的方式加载数据当然还有其他方法加载之后再说叭
此外, 建议读读api tf.data.Dataset 里好东西太多了~

Kevin在成长

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用tf.data.Dataset.from_tensor_slices五步加载数据集

原文链接前言:最近在学习tf2数据加载感觉蛮方便的这里记录下使用 tf.data.Dataset.from_tensor_slices 进行加载数据集.使用tf2做mnist（kaggle）的代码思路Step0: 准备要加载的numpy数据Step1: 使用 tf.data.Dataset.from_tensor_slices() 函数进行加载Step2: 使用 shuffle() 打乱数据Step3: 使用 map() 函数进行预处理Step4: 使用 batch() 函数设置 ba
复制链接

扫一扫