BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 阅读笔记

最新推荐文章于 2023-06-10 22:27:17 发布

whyoceansea

最新推荐文章于 2023-06-10 22:27:17 发布

阅读量254

点赞数

分类专栏：论文阅读笔记

本文链接：https://blog.csdn.net/whyoceansea/article/details/105659340

版权

论文阅读笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

BERT: 论文阅读笔记

1. abstract

BERT是由Google AI Language发布，BERT即 Bidirectional Encoder Representations from Transformers. 预先训练好的BERT模型只需要一个额外的输出曾就可以微调，无需对特定任务的体系结构进行大量修改。将GLUE score、MultiNLI accuracy、SQuAD V1.1 F1、SQuAD V2.0 F1 绝对提高7.7%，4.6%，1.5%，5.1%。

2. Introduction

将预先训练好的语言表达应用于下游任务的现有策略有两种:基于特征的和微调的.
BERT使用masked language model预训练目标缓解（alleviate）了单向性限制（？）
demonstrate the importance of bidirectional pre-training for language representations.
减少了特定任务架构的需求，在sentence-level和token-level实现了较为先进的性能.

3. Related Work

主要分为无监督的基于特征的方法、无监督的基于微调、有监督数据中进行迁移学习.
广泛适用的单词表示包括non-neural和neural.
为了预训练词向量，使用了left-to-right language模型.
首先pre-training BERT模型，在应对不同的任务时对参数进行微调.
在大数据集下，监督任务的迁移时有效的.

4.BERT

BERT框架有两个步骤：Pre-training和fine-tuning. 预训练过程中，在无标记数据上进行训练，得到预训练好的参数，之后针对不同的下游任务的标记数据进行微调，每个下游任务都有单独的微调模型，且他们都是由相同的预训练参数分化来的.
BERT的显著特征是其具有跨不同任务的统一架构，预训练的体系结构和最终的模型存在最小的minimal差异.
BERT的模型架构是基于Vaswani实现的原始应用的多层双向转换编码器.
$L:the\ number\ of \ layers\\ H:the\ hidden\ size\\ A:the\ number\ of\ self-attention\ heads$
$BERT_{BASE}:(L=12,H-=768,A=12,total parameters=110M)$
$BERT_{LARGE}:(L=24,H=1024,A=16,total parameters=340M)$
$B E R T$ 中的 $s e n t e n c e$ 可以是连续文本的任意跨度，而不是实际语言中的句子。 $s e q u e n c e$ 指的是 $B E R T$ 的输入标记，可以是单个句子或者两个句子的组合。
BERT使用了有30000个标记词汇的词块嵌入.
BERT使用了两种方法区分句子：
- 使用了一个特殊标记[SEP]将句子分开。
- 增加了一个学习过的embedding给每个token来表示其属于句子A还是B

对于给定的token，它的输入表示是由相应的token求和、段落以及位置向量构造的。

4.1 Pre-training BERT

使用了无监督的人任务来与训练BERT
深度双向模型比left-to-right模型、浅链接的left-to-right和right-to-left模型更powerful.
MLM:随机屏蔽一部分的输入标记，然后预测被屏蔽的标记，还被称为完形填空。屏蔽了 $15\%$ 。这可以得到双向预训练模型，但是缺点是在与训练和微调之间产生了不匹配。
NSP:下一句预测任务。
预训练数据：BookCorpus(800M words)和English Wikipedia(2500M words)，维基百科的数据只提取了文本的段落。