目录
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding
bert的两个步骤:预训练pre-training和微调fine-tuning
文本分类代码
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding
谷歌的小哥写出来的,据说是master,我辈楷模
文章逐段简介
每段摘要,读的时候带有目的去读
1.摘要(Abstract):与别的文章的区别是什么?效果有多好?
gpt是用左侧的信息去预测未来,bert是用左右两边的上下文的双向的信息(带掩码所以允许看左右的信息,相当于完形填空);
ELMO是基于RNN的架构的双向系统,bert是transformer,在应用的时候ELMO需要改下层架构,bert不用;
总而言之,就是吸取了ELMO可以双向的特点,又用了GPT的新的框架。
2.引言(Introduction):语言模型的简单介绍;摘要第一段的扩充;主要想法;如何解决所遇到的问题;
贡献点:双向信息的重要性(句子从左看到右,从右看到左)、在BERT上做微调效果很好、代码开源
3.结论(Conlusion):无监督的预训练很重要(在计算机视觉领域,在没有标签的数据集上做训练比在有标签的数据集上做训练效果会更好);主要贡献是将这些发现进一步推广到深度双向架构,使相同的预训练模型能够成功处理一系列的 NLP 任务。
在本篇论文的结论中最大贡献是双向性(在写一篇论文的时候,最好有一个卖点,而不是这里好那里也好)。
选了选双向性带来的不好是什么?做一个选择会得到一些,也会失去一些。
缺点是:与GPT(Improving Language Understanding by Generative Pre-Training)比,BERT用的是编码器,GPT用的是解码器。BERT做机器翻译、文本的摘要(生成类的任务)不好做。
但分类问题在NLP中更常见。
完整解决问题的思路:在一个很大的数据集上训练好一个很宽很深的模型,可以用在很多小的问题上,通过微调来全面提升小数据的性能(在计算机视觉领域用了很多年),模型越大,效果越好(很简单很暴力)。
Bert从入门到放弃
bert的贡献:提出了一个深的神经网络,通过大的数据集训练,应用在不同的Nlp任务上面,有了质的飞跃。