Datawhale组队学习NLP_Bert文本分类学习笔记

本文为学习Datawhale 2021.8组队学习NLP入门之Transformer笔记
原学习文档地址:https://github.com/datawhalechina/learn-nlp-with-transformers

1 数据的读入

1.1 Transformer Datasets

使用Transformers Datasets库读取网络数据,可以用于在公开数据集上验证模型的好坏。

除了mnli-mm以外,其他任务都可以直接通过任务名字进行加载。数据加载之后会自动缓存。

from datasets import list_datasets, load_dataset, list_metrics, load_metric
actual_task = "mnli" if task == "mnli-mm" else task
dataset = load_dataset("glue", actual_task)
metric = load_metric('glue', actual_task)

注意容易出现网络问题,根据报错信息在hosts文件中设置github网址的端口,更新最新的datasets库版本,可以解决这个问题。

也可以下载好数据集后,手动放到cache里面,如
C:\Users\用户名.cache\huggingface\datasets\glue\cola\1.0.0\dacbe3125aa31d7f70367a07a8a9e72a5a0bfeb5fc42e75c9db75b96da6053ad

datasets对象本身是一种DatasetDict数据结构,对于训练集、验证集和测试集,只需要使用对应的key(train,validation,test)即可得到相应的数据。

print(dataset)
# 输出
DatasetDict({
   
    train: Dataset({
   
        features: ['sentence', 'label', 'idx'],
        num_rows: 8551
    })
    validation: Dataset({
   
        features: ['sentence', 'label', 'idx'],
        num_rows: 1043
    })
    test: Dataset({
   
        features: ['sentence', 'label', 'idx'],
        num_rows: 1063
    })
})

就是一个嵌套字典。
dataset[‘train’][0][‘sentence’] 可以这样来调用训练集里第一个数据的sentence

1.1.1 datasets.Metric

可以输入metric查看其使用方法
举例:

import numpy as np

fake_preds = np.random.randint(0, 2, size=(64,))
fake_labels = np.random.randint(0, 2, size=(64,
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值