BERT: 理解上下文的语言模型

最新推荐文章于 2025-02-27 10:22:10 发布

YUAnthony

最新推荐文章于 2025-02-27 10:22:10 发布

阅读量1.8k

点赞数 3

文章标签：自然语言处理

本文链接：https://blog.csdn.net/weixin_43937759/article/details/120787695

版权

BERT是Google推出的无监督预训练模型，基于Transformer的Encoder结构。它可以用于多种NLP任务，通过微调适应不同下游任务。本文介绍了如何使用BERT进行情感分类，包括准备数据、转化输入格式、建立模型、训练和推断。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BERT 全名为 Bidrectional Encoder Representations from Transformers, 是 Google 以无监督的方式利用大量无标注文本生成的语言代表模型，其架构为 Transforer 中的 Encoder.

BERT 是 Transformer 中的 Encoder, 只是有很多层 ( 图片来源]

以前在处理不同的 NLP 任务通常需要不同的 Language Model (LM)，而设计这些模型并测试其性能需要不少的人力，时间以及计算资源。 BERT 模型就在这种背景下应运而生，我们可以将该模型套用到多个 NLP 任务，再以此为基础 fine tune 多个下游任务。fine tune BERT 来解决下游任务有5个简单的步骤：

准备原始文本数据
将原始文本转化成 BERT 相容的输入格式
利用 BERT 基于微调的方式建立下游任务模型
训练下游任务模型
对新样本做推论

那 BERT 模型该怎么用呢，thanks to 开源精神，BERT 的作者们已经开源训练好的模型，我们只需要使用 TensorFlow or PyTorch 将模型导入即可。

import torch
from transformers import BertTokenizer
from IPython.display import clear_output

PRETRAINED_MODEL_NAME = "bert-base-chinese"  # 指定简繁中文 BERT-BASE 预训练模型

# 取得此预训练模型所使用的 tokenizer
tokenizer = BertTokenizer.from_pretrained(PRETRAINED_MODEL_NAME)

clear_output()

上述代码选用了有 12 层 layers 的 BERT-base, 当然你还可以在 Hugging Face 的 repository 找到更多关于 BERT 的预训练模型：

bert-base-chinese
bert-base-uncased
bert-base-cased
bert-base-german-cased
bert-base-multilingual-uncased
bert-base-multilingual-cased
bert-large-cased
bert-large-uncased
bert-large-uncased-whole-word-masking
bert-large-cased-whole-word-masking

这些模型的区别主要在于：

预训练步骤使用的文本语言
有无分大小写
模型层数
预训练时遮住 wordpieces 或是整个 word

接下来我就简单的介绍一个情感分类任务来帮大家联系 BERT 的 fine tune

1.准备原始文本数据

首先加载我们需要用到的库：

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import torch
import transformers as tfs
import warnings

warnings.filterwarnings('ignore')

然后加载数据集，本文采用的数据集是斯坦福大学发布的一个情感分析数据集SST，其组成成分来自于电影的评论。

train_df = pd.read_csv('https://github.com/clairett/pytorch-sentiment-classification/raw/master/data/SST2/train.tsv', delimiter='\t', header=None)

train_set

最低0.47元/天解锁文章