Bert从入门到放弃——Bert文章精读(每部分的内容简介)及核心问题

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding谷歌的小哥写出来的,据说是master,我辈楷模文章逐段简介每段摘要,读的时候带有目的去读1.摘要(Abstract):与别的文章的区别是什么?效果有多好?gpt是用左侧的信息去预测未来,bert是用左右两边的上下文的双向的信息(带掩码所以允许看左右的信息,相当于完形填空);ELMO是基于RNN的架构的双向系统,bert是tra
摘要由CSDN通过智能技术生成

目录

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

文章逐段简介

Bert从入门到放弃 

bert的两个步骤:预训练pre-training和微调fine-tuning

 切词的方法——WordPiece embeddings

目的:

如何把两个句子放在一起:

输入表示input representation

 预训练

文本分类代码

数据库生成

定义模型

训练过程

 挖坑环节


BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

谷歌的小哥写出来的,据说是master,我辈楷模

文章逐段简介

每段摘要,读的时候带有目的去读

1.摘要(Abstract):与别的文章的区别是什么?效果有多好?

gpt是用左侧的信息去预测未来,bert是用左右两边的上下文的双向的信息(带掩码所以允许看左右的信息,相当于完形填空);

ELMO是基于RNN的架构的双向系统,bert是transformer,在应用的时候ELMO需要改下层架构,bert不用;

总而言之,就是吸取了ELMO可以双向的特点,又用了GPT的新的框架。


2.引言(Introduction):语言模型的简单介绍;摘要第一段的扩充;主要想法;如何解决所遇到的问题;
贡献点:双向信息的重要性(句子从左看到右,从右看到左)、在BERT上做微调效果很好、代码开源
3.结论(Conlusion):无监督的预训练很重要(在计算机视觉领域,在没有标签的数据集上做训练比在有标签的数据集上做训练效果会更好);主要贡献是将这些发现进一步推广到深度双向架构,使相同的预训练模型能够成功处理一系列的 NLP 任务。
在本篇论文的结论中最大贡献是双向性(在写一篇论文的时候,最好有一个卖点,而不是这里好那里也好)。
选了选双向性带来的不好是什么?做一个选择会得到一些,也会失去一些。
缺点是:与GPT(Improving Language Understanding by Generative Pre-Training)比,BERT用的是编码器,GPT用的是解码器。BERT做机器翻译、文本的摘要(生成类的任务)不好做。
但分类问题在NLP中更常见。
完整解决问题的思路:在一个很大的数据集上训练好一个很宽很深的模型,可以用在很多小的问题上,通过微调来全面提升小数据的性能(在计算机视觉领域用了很多年),模型越大,效果越好(很简单很暴力)。

Bert从入门到放弃 

bert的贡献:提出了一个深的神经网络,通过大的数据集训练,应用在不同的Nlp任务上面,有了质的飞跃。

bert的两个步骤:预训练pre-training和微调fine-tuning

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值