BERT理解

最新推荐文章于 2025-02-23 15:55:34 发布

莫一丞元

最新推荐文章于 2025-02-23 15:55:34 发布

阅读量1.1k

点赞数 1

分类专栏：文本向量化文章标签： bert 自然语言处理深度学习

本文链接：https://blog.csdn.net/weixin_45422462/article/details/120030872

版权

文本向量化专栏收录该内容

5 篇文章

订阅专栏

BERT 模型是 Google 在 2018 年提出的一种 NLP 模型，成为最近几年 NLP 领域最具有突破性的一项技术，其中有五个关键词，分别是 Pre-training、Deep、Bidirectional、Transformers、和 Language Understanding，在 11 个 NLP 领域的任务上都刷新了以往的记录，例如GLUE，SquAD1.1，MultiNLI 等。

前言

Google 在论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》中提出的 BERT 模型，可以作为公认的里程碑式的模型，但是它最大的优点不是创新，而是集大成者，并且这个集大成者有了各项突破：
• BERT 的意义在于：从大量无标记数据集中训练得到的深度模型，可以显著提高各项自然语言处理任务的准确率。
• 参考了 ELMO 模型的双向编码思想、借鉴了 GPT 用 Transformer 作为特征提取器的思路、采用了 word2vec 所使用的 CBOW 方法
具体结构如下：

在这里插入图片描述
从上图可以发现，BERT 的模型结构采用 Transformer Encoder 模块的堆叠。并在模型参数选择上，论文给出了两套大小不一致的模型。

其中 L 代表 Transformer Block 的层数，H 代表特征向量的维数，A 表示 Self-Attention 的头数。BERT 参数量级的计算公式：
在这里插入图片描述

模型结构部分

采用Transformer 的 Encoder 结构，但是模型结构比 Transformer 要深。Transformer Encoder 包含 6 个 Encoder block，BERT-base 模型包含 12 个 Encoder block，BERT-large 包含 24 个 Encoder block。

其中左图是模型预训练结构图，右侧是对于具体任务的微调过程图。

模型输入部分

首先，BERT 的输入可以包含一个句子对 (句子 A 和句子 B)，也可以是单个句子。同时 BERT 增加了一些有特殊作用的标志位：
• [CLS] ：放在第一个句子的首位，经过 BERT 得到表征向量 C ，用于后续分类任务。
• [SEP] ：用于分开两个输入句子，例如输入句子 A 和 B，要在句子 A，B 中间增加 [SEP] 标志。
• [MASK] ：用于遮盖句子中的一些单词，将单词用 [MASK] 遮盖之后，再利用 BERT 输出的 [MASK] 向量预测单词。
• WordPiece 方法：将单词拆成子词单元 (SubWord)，例如：有的词拆出词根。
具体举例如下：
给定两个句子 “my dog is cute” 和 “he likes palying” 作为输入样本。BERT 会转为 “[CLS] my dog is cute [SEP] he likes play ##ing [SEP]”。其中由于BERT 里面用了 WordPiece 方法，会将单词拆成子词单元 (SubWord)，所以有的词会拆出词根，例如 “palying” 会变成 “paly” + “##ing”。

并且，与 Transformer 不同，BERT 的输入 Embedding 由三个部分相加得到：Token Embedding，Segment Embedding，Position Embedding。
在这里插入图片描述
 Token Embedding：单词的 Embedding，例如 [CLS] dog 等，通过训练学习得到。
 Segment Embedding：用于区分每一个单词属于句子 A 还是句子 B，如果只输入一个句子就只使用 EA，通过训练学习得到。
 Position Embedding：编码单词出现的位置，与 Transformer 使用固定的公式计算不同，BERT 的 Position Embedding 也是通过学习得到的，在 BERT 中，假设句子最长为 512。

预训练

作者认为，存在通用的语言模型，所以先用文章预训练通用模型，然后再根据具体应用，用 supervised 训练数据，精加工（fine tuning）模型，使之适用于具体应用。并且为了区别于针对语言生成的 Language Model，作者给通用的语言模型，取了一个名字–语言表征模型 Language Representation Model。
BERT 输入句子中单词的 Embedding 之后，通过预训练方式训练模型，预训练有两个任务。
 第一个是 Masked LM，在句子中随机用 [MASK] 替换一部分单词，然后将句子传入 BERT 中编码每一个单词的信息，最终用 [MASK] 的编码信息 T[MASK] 预测该位置的正确单词。
 第二个是下一句预测NSP，将句子 A 和 B 输入 BERT，预测 B 是否 A 的下一句，使用 [CLS] 的编码信息 C 进行预测。

Masked LM

BERT 的作者认为在预测单词时，要同时利用单词 left (上文) 和 right (下文) 信息才能最好地预测。将 ELMo 这种分别进行 left-to-right 和 right-to-left 的模型称为 shallow bidirectional model (浅层双向模型)，BERT 希望在 Transformer Encoder 结构上训练出一种深度双向模型 deep bidirectional model，因此提出了 Mask LM 这种方法进行训练。
下图展示了bert、GPT、ELMo三者的区别：
在这里插入图片描述
 ELMo 使用自左向右编码和自右向左编码的两个 LSTM 网络，分别以 P(wi|w1,⋯,wi−1) 和 P(wi|wi+1,⋯,wn)为目标函数独立训练，将训练得到的特征向量以拼接的形式实现双向编码，本质上还是单向编码，只不过是两个方向上的单向编码的拼接而成的双向编码。
 GPT 使用 Transformer Decoder 作为 Transformer Block，以 P(wi|w1,⋯,wi−1) 为目标函数进行训练，用 Transformer Block 取代 LSTM 作为特征提取器，实现了单向编码，具有良好的文本生成能力，是一个标准的预训练语言模型，然后使用 Fine-Tuning 模式解决下游任务。但然而当前词的语义只能由其前序词决定，并且在语义理解上不足。
 BERT 使用 Transformer encoder作为特征提取器，虽然没有文本生成能力，但拥有更强的语义理解能力。也是一个标准的预训练语言模型，它以 P(wi|w1,⋯,wi−1,wi+1,⋯,wn) 为目标函数进行训练，BERT 使用的编码器属于双向编码器。BERT 和 ELMo 的区别在于使用 Transformer Block 作为特征提取器，加强了语义特征提取的能力；BERT 和 GPT 的区别在于使用 Transformer Encoder 作为 Transformer Block，并且将 GPT 的单向编码改成双向编码，也就是说 BERT 舍弃了文本生成能力，换来了更强的语义理解能力。
并且在实际预测单词 “自然” 的时候，将“自然”进行Mask处理，防止模型提前得知 “自然” 的信息。具体操作如下：
在这里插入图片描述
BERT 在训练时只预测 [Mask] 位置的单词，这样就可以同时利用上下文信息。但是在后续使用的时候，句子中并不会出现 [Mask] 的单词，这样会影响模型的性能。因此在训练时采用如下策略，随机选择句子中 15% 的单词进行 Mask，在选择为 Mask 的单词中，有 80% 真的使用 [Mask] 进行替换，10% 不进行替换，剩下 10% 使用一个随机单词替换。例如句子 “my dog is hairy”，选择了单词 “hairy” 进行 Mask，则：
 80% 的概率，将句子 “my dog is hairy” 转换为句子 “my dog is [Mask]”。
 10% 的概率，保持句子为 “my dog is hairy” 不变。
 10% 的概率，将单词 “hairy” 替换成另一个随机词，例如 “apple”。将句子 “my dog is hairy” 转换为句子 “my dog is apple”。

NSP

BERT 的第二个预训练任务是 Next Sentence Prediction (NSP)，即下一句预测，给定两个句子 A 和 B，要预测句子 B 是否是句子 A 的下一个句子。由于很多下游任务，例如问答系统 (QA)，自然语言推断 (NLI) 都需要模型能够理解两个句子之间的关系，但是通过训练语言模型达不到这个目的。所以，BERT 使用这一预训练任务的主要原因是：让模型能够更好地理解句子间的关系。
其中BERT 在进行训练的时候，有 50% 的概率会选择相连的两个句子 A 、B，有 50% 的概率会选择不相连得到两个句子 A 、B，然后通过 [CLS] 标志位的输出预测句子 A 的下一句是不是句子 B。
• 输入 = [CLS] 我喜欢玩 [Mask] 联盟 [SEP] 我最擅长的 [Mask] 是亚索 [SEP]
类别 = B 是 A 的下一句
• 输入 = [CLS] 我喜欢玩 [Mask] 联盟 [SEP] 今天天气很 [Mask] [SEP]
类别 = B 不是 A 的下一句

后续微调

具体如下图：
在这里插入图片描述
a) 一对句子的分类任务：例如自然语言推断 (MNLI)，句子语义等价判断 (QQP) 等。如上图 (a) 所示，需要将两个句子传入 BERT，然后使用 [CLS] 的输出值 C 进行句子对分类。
b) 单个句子分类任务：例如句子情感分析 (SST-2)，判断句子语法是否可以接受 (CoLA) 等。如上图 (b) 所示，只需要输入一个句子，无需使用 [SEP] 标志，然后也是用 [CLS] 的输出值 C 进行分类。
c) 问答任务：如 SQuAD v1.1 数据集，样本是语句对 (Question, Paragraph)，Question 表示问题，Paragraph 是一段来自 Wikipedia 的文本，Paragraph 包含了问题的答案。而训练的目标是在 Paragraph 找出答案的起始位置 (Start，End)。如上图 © 所示，将 Question 和 Paragraph 传入 BERT，然后 BERT 根据 Paragraph 所有单词的输出预测 Start 和 End 的位置。
d) 单个句子标注任务：例如命名实体识别 (NER)，输入单个句子，然后根据 BERT 对于每个单词的输出 T 预测这个单词的类别，是属于 Person，Organization，Location，Miscellaneous 还是 Other (非命名实体)。