关于使用tfds.load()函数加载tensorflow_datasets数据集由于网络无法加载的问题

当我们想要在本地运行一下tensorflow的一些demo时首先要做的就是加载数据集的问题,但是由于国内网络的问题加上tensorflow_datasets的数据集一般都是几百兆甚至一两个G,所以很容易劝退我等小白,既然网络直接加载数据集几乎不可能成功,那么一个比较容易想到的解决办法便是提前将数据集下载到本地,然后从本地加载tensorflow_datasets的数据集。
以tensorflow中的transformer葡萄牙语-英语翻译为例,我们需要加载的数据集为:
ted_hrlr_translate/pt_to_en;在网上搜了一圈发现没有办法直接下载(烦请搜到的同学可以告知我一下,多谢),我的做法是通过Google Colab来进行下载的,连接如下:理解语言的 Transformer 模型
进入之后点击如下图红圈所示的地方,会出现一个类似音乐软件那种“开始”的按钮,按一下便可以执行方框中的代码,但是前提是你得有谷歌的账号,申请谷歌账号的时候注意得选择一下国家,不然会报电话号码格式不对的错误从而无法申请。
在这里插入图片描述
接着再运行第二个框,这个框中的代码就是用来下载数据集的,我们需要找到文件下载的路径,如下图:
在这里插入图片描述
然后再到左边找到下图1红圈的图标并点击,再继续点击2红圈。
在这里插入图片描述
然后找到root目录,
在这里插入图片描述
下图便是文件的全部路径,右击文件便可以下载了,因为Google Colab不支持下载文件夹,所以我们只能一个文件一个文件的下载。
在这里插入图片描述
当下载完之后,加载的格式如下:
在这里插入图片描述
其中name就是数据集的名字,data_dir便是数据集所在的目录。

  • 10
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
TensorFlow Datasets(简称TFDS)是一个TensorFlow的库,用于提供公开可用的数据集。它提供了多种数据集,包括自然语言处理、计算机视觉和基准测试数据等。TFDS提供了简化数据和预处理的功能,可以方便地在TensorFlow中使用这些数据集。 安装TFDS 2.1的步骤如下: 1. 首先,确保已经安装了TensorFlow和Python环境。安装TensorFlow可以使用pip命令(如pip install tensorflow)。 2. 打开命令行终端,运行下面的命令安装TFDS: pip install tensorflow-datasets==2.1 3. 安装完成后,可以在Python脚本中导入TFDS库并使用其中的数据集进行训练和测试。 TFDS使用有以下几个主要步骤: 1. 导入必要的库和模块: import tensorflow_datasets as tfds import tensorflow as tf 2. 数据集: dataset, info = tfds.load('mnist', split='train', with_info=True) 这里以MNIST手写数字数据集为例,split参数用于指定数据集划分,with_info参数用于获取数据集的信息。 3. 预处理数据集: 对数据集进行预处理,例如归一化、扩充等。 4. 创建数据集迭代器: dataset = dataset.shuffle(1000).batch(128).prefetch(tf.data.experimental.AUTOTUNE) 使用shuffle、batch、prefetch等函数数据集进行处理,并创建一个数据集迭代器。 5. 训练和测试: for batch in dataset: train_step(batch) 使用创建的数据集迭代器进行训练和测试,可根据具体需求进行相应操作。 TFDS使得数据集的使用方便,减少了数据集的预处理工作,利用TFDS可以快速常用的数据集,并在TensorFlow中进行模型的训练和测试。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值