BERT（Pre-training of Deep Bidirectional Transformers forLanguage Understanding）论文笔记

上海大学吴昊

已于 2022-04-12 20:26:44 修改

阅读量747

点赞数 2

分类专栏： # NLP 文章标签： python 机器学习 pytorch 人工智能

于 2022-03-31 12:48:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43734080/article/details/123866423

版权

NLP 专栏收录该内容

18 篇文章 43 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

目录

一、Bert简介

1.1 Transformer模型

二、BERT的发展历程

2.1 One-Hot 编码

2.1.1 无法计算词相似度

2.1.2 Sparsity（稀疏性）

2.3 BERT的诞生

三、BERT 的训练过程

3.1 Masked LM（Language Model）

3.2 Next Sentence Prediction

四、BERT的用途

4.1 文本分类

4.2 单词分类

4.3 判断两个句子之间的关系

4.4 QA（问答系统）

五、BERT参数讲解

5.1 输入表示

5.2 预训练加微调

5.3.1 预训练阶段参数

5.3.2 微调阶段参数

六、Bert模型应用效果

6.1 分类数据集上的表现

6.2 问答数据集上的表现

6.3 命名实体识别上的表现

6.4 常识推理上的表现

七、消融实验

7.1 MASK和下一句预测对结果的影响

7.2 模型结构的复杂度对结果的影响

7.3 预训练中training step对结果的影响

7.4 基于特征的方法对结果的影响

7.5 不同屏蔽策略的影响

一、Bert简介

BERT全称是Bidirectional Encoder Representations from Transformers，是google最新提出的NLP预训练方法，在大型文本语料库（如维基百科）上训练通用的“语言理解”模型，然后将该模型用于我们关心的下游NLP任务（如分类、阅读理解）。 BERT优于以前的方法，因为它是用于预训练NLP的第一个**无监督，深度双向**系统，从名字我们能看出该模型两个核心特质：依赖于Transformer以及双向，同时它也是木偶动画《芝麻街》里面的角色，它还有个兄弟EMLo。长右边这样：

关于Bert这个模型的神奇之处我就不在这里多说了，它直接颠覆了人们对Pretrained model的理解。尽管Bert模型有多得骇人听闻的参数，但是我们可以直接借助迁移学习的想法使用已经预训练好的模型参数，并根据自己的实际任务进行fine-tuning。复旦大学的一篇论文

了解本专栏

超级会员免费看

上海大学吴昊

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
BERT（Pre-training of Deep Bidirectional Transformers forLanguage Understanding）论文笔记

目录一、Bert简介1.1 Transformer模型1.2 Bert模型二、BERT的发展历程2.1One-Hot 编码2.1.1无法计算词相似度2.1.2Sparsity（稀疏性）2.2Word2vec2.3 BERT的诞生三、BERT 的训练过程3.1Masked LM（Language Model）3.2 Next Sentence Prediction四、BERT的用途4.1 文本分类4.2单词分类4.3判断两...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

上海大学吴昊 作者逐个题目分析的噢

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。