BERT论文核心点记录

BERT适合分类任务(整段分类后者词分类),对生成任务不友好

使用BERT的方法:只需要在预训练好的BERT基础上新增一个输出层,然后用标记好的数据进行有监督微调

Bidirectional Encoder双向Encoder实质上就是指Transformer中的encoder,双向是指在self-attention的每个位置能看到左/右两侧的上下文信息

BERT由两大部分组成

1.预训练

有两种预训练任务

(1)Masked LM

 每个sentence随机masked掉15%的token。因为在微调时候是没有[MASK]这个特殊token的,为了弥补预训练和微调时的这个mismatch,作者采用如下策略:

1.80%的概率为[MASK]

2.10%的概率是随机的token

3.10%的概率不改变,仍是原来的token

(2)NSP, Next Sentence Prediction

输入两个句子A和B,B有50%的概率是A的下一句,50%的概率不是。采用[CLS]对应的输出向量进行二分类训练

2.微调

预训练好的模型参数也全部参与训练

额外增加一个输出层进行训练。

本质是分类模型:[CLS]对应输出向量用于整个分类,其余token对应的输出向量用于token-level的分类。用softmax函数实现多分类

网络结构

BERT-BASE,   L=12, H=768, A=12,110M即1.1亿参数(和GPT-1具有相近参数)

BERT-LARGE, L=24, H=1024, A=24,340M即3.4亿参数

输入输出表示

为了兼容多种下游任务,BERT输入可以是一个句子或者两个句子,统称为一个Sequence

采用WordPiece embeddings,这样输入字典为3w个token(以空格区分,每个单词作为token的话,字典会非常大)

输入的第一个token永远是[CLS],[CLS]的BERT输出向量(维度也为H)可用于整个句子的分类

每个输入句子后面都跟一个分隔符[SEP],因此输入句子对pair的话会有两个[SEP]

每个输入token的embedding由三部分组成,三个embedding都是通过网络学习得到的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值