20210915_NLP之transformer_图解BERT

最新推荐文章于 2024-09-29 22:02:33 发布

余柳成荫

最新推荐文章于 2024-09-29 22:02:33 发布

阅读量216

点赞数

文章标签： transformer bert 自然语言处理

原文链接：https://github.com/datawhalechina/learn-nlp-with-transformers

版权

二、图解BERT

在这里插入图片描述

目录

二、图解BERT

来源

Datewhle29期__NLP之transformer :

erenup(多多笔记)，北京大学，负责人
张帆，Datawhale，天津大学，篇章4
张贤，哈尔滨工业大学，篇章2
李泺秋，浙江大学，篇章3
蔡杰，北京大学，篇章4
hlzhang，麦吉尔大学，篇章4
台运鹏篇章2
张红旭篇章2

学习资料地址：
https://datawhalechina.github.io/learn-nlp-with-transformers/#/
github地址:
https://github.com/datawhalechina/learn-nlp-with-transformers

1.1 BERT模型概述

BERT的全称是Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder，因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上，即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。

1.2 BERT模型

BERT模型结构基本上就是Transformer的encoder部分，BERT-base对应的是12层encoder，BERT-large对应的是24层encoder。

在这里插入图片描述

1.3 输入

BERT模型输入有一点特殊的地方是在一句话最开始拼接了一个 [CLS] token
BERT将一串单词作为输入，这些单词多层encoder中不断向上流动，每一层都会经过 Self-Attention和前馈神经网络。

在这里插入图片描述

1.4 输出

BERT输入的所有token经过BERt编码后，会在每个位置输出一个大小为 hidden_size（在 BERT-base中是 768）的向量。

1.5 BERT应用

四个例子:
- 两个句子是否相似，
- 判断单个句子的情感，
- 用来做抽取式问答，
- 用来做序列标注。

在这里插入图片描述

1.6 特征提取

由于BERT模型可以得到输入序列所对应的所有token的向量表示，因此不仅可以使用最后一程BERT的输出连接上任务网络进行微调，还可以直接使用这些token的向量当作特征。比如，可以直接提取每一层encoder的token表示当作特征，输入现有的特定任务神经网络中进行训练。

在这里插入图片描述

参考资料

1.https://zhuanlan.zhihu.com/p/46652512

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。