BERT(Pre-training of Deep Bidirectional Transformers forLanguage Understanding)论文笔记

目录

一、Bert简介

1.1 Transformer模型

1.2 Bert模型

二、BERT的发展历程

2.1 One-Hot 编码

2.1.1 无法计算词相似度

2.1.2 Sparsity(稀疏性) 

​2.2 Word2vec

2.3 BERT的诞生

三、BERT 的训练过程

3.1  Masked LM(Language Model)

3.2 Next Sentence Prediction

四、BERT的用途

4.1 文本分类

4.2 单词分类

4.3 判断两个句子之间的关系 

4.4  QA(问答系统)

五、BERT参数讲解

5.1 输入表示

​5.2 预训练加微调

5.3.1 预训练阶段参数

5.3.2 微调阶段参数

六、Bert模型应用效果

6.1 分类数据集上的表现

6.2 问答数据集上的表现

6.3 命名实体识别上的表现 

6.4 常识推理上的表现 

七、消融实验 

7.1  MASK和下一句预测对结果的影响

7.2 模型结构的复杂度对结果的影响 

7.3 预训练中training step对结果的影响 

7.4 基于特征的方法对结果的影响 

7.5 不同屏蔽策略的影响

参考文档


一、Bert简介

BERT全称是Bidirectional Encoder Representations from Transformers,是google最新提出的NLP预训练方法,在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于我们关心的下游NLP任务(如分类、阅读理解)。 BERT优于以前的方法,因为它是用于预训练NLP的第一个**无监督深度双向**系统,从名字我们能看出该模型两个核心特质:依赖于Transformer以及双向,同时它也是木偶动画《芝麻街》里面的角色,它还有个兄弟EMLo。长右边这样:

                                                           

关于Bert这个模型的神奇之处我就不在这里多说了,它直接颠覆了人们对Pretrained model的理解。尽管Bert模型有多得骇人听闻的参数,但是我们可以直接借助迁移学习的想法使用已经预训练好的模型参数,并根据自己的实际任务进行fine-tuning。复旦大学的一篇论文

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

上海大学 吴昊

作者逐个题目分析的噢

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值