HuggingFace加载数据集

Nnbwbyhxy

已于 2024-12-05 16:43:29 修改

阅读量657

点赞数 3

文章标签：人工智能深度学习

于 2024-12-05 11:02:34 首次发布

本文链接：https://blog.csdn.net/weixin_46532327/article/details/144259102

版权

HuggingFace官方文档地址为：Quickstart

官方给出的加载数据集的方式为：通过load_dataset()函数加载

from datasets import load_dataset

dataset = load_dataset("glue", "mrpc", split="train")

"glue"：这是数据集的名称。load_dataset 是 Hugging Face Datasets 库中的一个函数，用于加载各种数据集。"glue" 是一个包含多个子任务（如文本分类、自然语言推理等）的数据集集合。
"mrpc"：这是数据集子任务的名称。在 GLUE（General Language Understanding Evaluation）基准中，mrpc 是其中的一个子任务，代表 "Microsoft Research Paraphrase Corpus"（微软研究同义句语料库），用于判断两个句子是否为同义句。除了 mrpc，GLUE 还包含了其他任务（例如 sst2、qqp 等）。
split="train"：指定你想要加载的分割部分。GLUE 数据集通常有不同的分割，例如：
- "train"：训练数据
- "validation"：验证数据
- "test"：测试数据

使用官方的加载方式大概率会因为在国内网络问题而报错

推荐解决方式参考使用国内镜像第二章 HuggingFace数据集使用介绍_hugging face 上的资源怎么用-CSDN博客

首先设置环境变量

#Linux设置
export HF_ENDPOINT=https://hf-mirror.com

输入命令

huggingface-cli download --repo-type dataset --resume-download  openai/gsm8k  --local-dir retarded_bar

下载openai的gsm8k数据集保存到本地的retarded_bar文件夹

出现以下即为下载成功

查看下载完成的数据集

import pandas as pd

# 使用绝对路径加载 Parquet 文件
train_main = pd.read_parquet('/home/lqsilicon/retarded_bar/main/train-00000-of-00001.parquet')
print(train_main.head())

输出为