HuggingFace官方文档地址为:Quickstart
官方给出的加载数据集的方式为:通过load_dataset()函数加载
from datasets import load_dataset
dataset = load_dataset("glue", "mrpc", split="train")
-
"glue":这是数据集的名称。
load_dataset
是 Hugging Face Datasets 库中的一个函数,用于加载各种数据集。"glue"
是一个包含多个子任务(如文本分类、自然语言推理等)的数据集集合。 -
"mrpc":这是数据集子任务的名称。在 GLUE(General Language Understanding Evaluation)基准中,
mrpc
是其中的一个子任务,代表 "Microsoft Research Paraphrase Corpus"(微软研究同义句语料库),用于判断两个句子是否为同义句。除了mrpc
,GLUE 还包含了其他任务(例如sst2
、qqp
等)。 -
split="train"
:指定你想要加载的分割部分。GLUE 数据集通常有不同的分割,例如:"train"
:训练数据"validation"
:验证数据"test"
:测试数据
使用官方的加载方式大概率会因为在国内网络问题而报错
推荐解决方式参考使用国内镜像第二章 HuggingFace数据集使用介绍_hugging face 上的资源怎么用-CSDN博客
首先设置环境变量
#Linux设置
export HF_ENDPOINT=https://hf-mirror.com
输入命令
huggingface-cli download --repo-type dataset --resume-download openai/gsm8k --local-dir retarded_bar
下载openai的gsm8k数据集 保存到本地的retarded_bar文件夹
出现以下即为下载成功
查看下载完成的数据集
import pandas as pd
# 使用绝对路径加载 Parquet 文件
train_main = pd.read_parquet('/home/lqsilicon/retarded_bar/main/train-00000-of-00001.parquet')
print(train_main.head())
输出为
注意相关的库以安装完成若出现报错则安装相关的库文件