本篇博客的重点在于BERT的使用。
transformers包版本:4.44.2
1. 微调BERT进行文本分类
这里我们使用stanford大学的SST2数据集来演示BERT模型的微调过程。SST-2数据集(Stanford Sentiment Treebank 2)是一个用于情感分类的经典数据集,常用于自然语言处理(NLP)领域的情感分析任务。
- 第1步: 下载数据。其代码如下:
import pandas as pd
from transformers import BertTokenizer
from datasets import DatasetDict, Dataset
from torch.utils.data import DataLoader
from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments
splits = {
'train': 'data/train-00000-of-00001.parquet',
'validation': 'data/validation-00000-of-00001.parquet',
'test': 'data/test-00000-of-00001.parquet'}
train = pd.read_parquet("hf://datasets/stanfordnlp/sst2/" + splits["train"])
validation = pd.read_parquet("hf://datasets/stanfordnlp/sst2/" + splits["validation"])
test = pd.read_parquet("hf://datasets/stanfordnlp/sst2/" + splits["test"])
dataset = DatasetDict(