seamew/ChnSentiCorp数据集加载

一、下载数据集

        在hugggingface直接下载seamew/ChnSentiCorp的全部文件,实际上ChnSentiCorp.py和.txt文件不用下载。

二、添加一个JSON文件(作用很大,但我没想明白)

        在先前下载内容的相同目录下创建一个名为state.json的文件,其内容为:

{
    "_data_files": [
      {
        "filename": "chn_senti_corp-train.arrow"
      }
    ],
    "_fingerprint": "24c4fd9824d8b978",
    "_format_columns": null,
    "_format_kwargs": {},
    "_format_type": null,
    "_indexes": {},
    "_output_all_columns": false,
    "_split": "train"
  }

三、在自己的Python脚本中加载并且读取这些数据的内容

# -*- coding: utf-8 -*-
# coding=utf-8
# coding: utf-8
# os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7890'
# os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7890'

from datasets import load_from_disk


class Dataset:
    def __init__(self):
        self.dataset = load_from_disk(
            "./ChnSentiCorp"
        )

    def __len__(self):
        return len(self.dataset)

    def __getitem__(self, i):
        text = self.dataset[i]["text"]
        label = self.dataset[i]["label"]
        return text, label


if __name__ == '__main__':
    dataset = Dataset()
    print(len(dataset), dataset[0])
    pass

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CCSBRIDGE

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值