利用python代码从Hugging Face Hub下载数据集

迷路爸爸180

于 2024-08-16 21:02:24 发布

阅读量323

点赞数 3

文章标签： python 人工智能开发语言

本文链接：https://blog.csdn.net/weixin_51524504/article/details/141269624

版权

利用python代码从Hugging Face Hub下载数据集

文章目录

利用python代码从Hugging Face Hub下载数据集

引言

在自然语言处理(NLP)领域，数据集是构建和评估模型的关键资源。Hugging Face是一个活跃的社区，为研究人员和开发者提供了大量的高质量数据集。本文将指导你如何使用Hugging Face的datasets库从Hugging Face Hub下载数据集，并将数据集保存到指定的位置。

环境准备

首先，确保你的环境中已经安装了datasets库。如果没有安装，可以使用pip进行安装：

pip install datasets

步骤一：获取API令牌

为了访问受保护的数据集，你需要一个Hugging Face的API令牌。如果你还没有API令牌，可以前往Hugging Face Hub创建一个。

步骤二：下载数据集

接下来，我们将使用Hugging Face的load_dataset函数下载数据集，并指定API令牌和缓存目录。

from datasets import load_dataset

# 替换这里的API令牌为你自己的API令牌
HF_API_TOKEN = "hf_******"

# 使用你的 API 令牌加载数据集
dataset = load_dataset("bigscience-data/roots_zh-cn_wikipedia", use_auth_token=HF_API_TOKEN, cache_dir="./dataset")

# 查看数据集的信息
print(dataset)

在这段代码中，我们指定了以下参数：

use_auth_token: 传递API令牌，以便访问受保护的数据集。
cache_dir: 指定数据集的下载位置。在这个例子中，我们将数据集保存在当前目录下的./dataset文件夹中。

步骤三：验证数据集

下载完成后，你可以通过打印dataset对象来验证数据集是否成功下载。

print(dataset)

这将输出数据集的信息，包括其分割、特征等。

示例代码

下面是一个完整的示例，演示如何下载bigscience-data/roots_zh-cn_wikipedia数据集，并将其保存到指定的位置。

from datasets import load_dataset

# 替换这里的API令牌为你自己的API令牌
HF_API_TOKEN = "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"

# 使用你的 API 令牌加载数据集
dataset = load_dataset("bigscience-data/roots_zh-cn_wikipedia", use_auth_token=HF_API_TOKEN, cache_dir="./dataset")

# 查看数据集的信息
print(dataset)

# 如果你想进一步探索数据集的内容，可以使用以下代码
# 例如，查看数据集的第一个样本
first_sample = next(iter(dataset['train']))
print(first_sample)