利用python代码从Hugging Face Hub下载数据集
引言
在自然语言处理(NLP)领域,数据集是构建和评估模型的关键资源。Hugging Face是一个活跃的社区,为研究人员和开发者提供了大量的高质量数据集。本文将指导你如何使用Hugging Face的datasets
库从Hugging Face Hub下载数据集,并将数据集保存到指定的位置。
环境准备
首先,确保你的环境中已经安装了datasets
库。如果没有安装,可以使用pip进行安装:
pip install datasets
步骤一:获取API令牌
为了访问受保护的数据集,你需要一个Hugging Face的API令牌。如果你还没有API令牌,可以前往Hugging Face Hub创建一个。
步骤二:下载数据集
接下来,我们将使用Hugging Face的load_dataset
函数下载数据集,并指定API令牌和缓存目录。
from datasets import load_dataset
# 替换这里的API令牌为你自己的API令牌
HF_API_TOKEN = "hf_******"
# 使用你的 API 令牌加载数据集
dataset = load_dataset("bigscience-data/roots_zh-cn_wikipedia", use_auth_token=HF_API_TOKEN, cache_dir="./dataset")
# 查看数据集的信息
print(dataset)
在这段代码中,我们指定了以下参数:
use_auth_token
: 传递API令牌,以便访问受保护的数据集。cache_dir
: 指定数据集的下载位置。在这个例子中,我们将数据集保存在当前目录下的./dataset
文件夹中。
步骤三:验证数据集
下载完成后,你可以通过打印dataset
对象来验证数据集是否成功下载。
print(dataset)
这将输出数据集的信息,包括其分割、特征等。
示例代码
下面是一个完整的示例,演示如何下载bigscience-data/roots_zh-cn_wikipedia
数据集,并将其保存到指定的位置。
from datasets import load_dataset
# 替换这里的API令牌为你自己的API令牌
HF_API_TOKEN = "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"
# 使用你的 API 令牌加载数据集
dataset = load_dataset("bigscience-data/roots_zh-cn_wikipedia", use_auth_token=HF_API_TOKEN, cache_dir="./dataset")
# 查看数据集的信息
print(dataset)
# 如果你想进一步探索数据集的内容,可以使用以下代码
# 例如,查看数据集的第一个样本
first_sample = next(iter(dataset['train']))
print(first_sample)