HuggingFace加载数据集

HuggingFace官方文档地址为:Quickstart

 官方给出的加载数据集的方式为:通过load_dataset()函数加载

from datasets import load_dataset

dataset = load_dataset("glue", "mrpc", split="train")
  1. "glue":这是数据集的名称。load_dataset 是 Hugging Face Datasets 库中的一个函数,用于加载各种数据集。"glue" 是一个包含多个子任务(如文本分类、自然语言推理等)的数据集集合。

  2. "mrpc":这是数据集子任务的名称。在 GLUE(General Language Understanding Evaluation)基准中,mrpc 是其中的一个子任务,代表 "Microsoft Research Paraphrase Corpus"(微软研究同义句语料库),用于判断两个句子是否为同义句。除了 mrpc,GLUE 还包含了其他任务(例如 sst2qqp 等)。

  3. split="train":指定你想要加载的分割部分。GLUE 数据集通常有不同的分割,例如:

    • "train":训练数据
    • "validation":验证数据
    • "test":测试数据

使用官方的加载方式大概率会因为在国内网络问题而报错

推荐解决方式参考使用国内镜像第二章 HuggingFace数据集使用介绍_hugging face 上的资源怎么用-CSDN博客

首先设置环境变量

#Linux设置
export HF_ENDPOINT=https://hf-mirror.com

输入命令

huggingface-cli download --repo-type dataset --resume-download  openai/gsm8k  --local-dir retarded_bar

 下载openai的gsm8k数据集 保存到本地的retarded_bar文件夹

出现以下即为下载成功

查看下载完成的数据集

import pandas as pd

# 使用绝对路径加载 Parquet 文件
train_main = pd.read_parquet('/home/lqsilicon/retarded_bar/main/train-00000-of-00001.parquet')
print(train_main.head())

输出为

注意相关的库以安装完成若出现报错则安装相关的库文件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值