论文阅读准备
前期知识储备
学习目标
论文导读
论文研究背景、成果及意义
attention的应用----transformer
论文泛读
摘要
论文精读
论文算法模型总览
模型细节一
注意力
self-attention
self-attention可以用来代替RNN的结构
Mul-ti head self-attention
Transformer
除以根号dk的作用:收敛速度变快,完成缩放。
双向Transformer
输入表征
模型细节二
Task1 : Masked LM
Task2 : 预测下一个句子
微调
阅读理解任务是指从输入的文章里面寻找问题的答案,答案是文章里面的句子,答案所在文章的开始位置和结束位置,相当于作一个分类任务,要预测开始和结束两个位置,因此要取两个词作为输出。
作者大致分为了四个类别,如上图所示,四幅图代表了不同的NLP任务,现在大量的task几乎都可以抽象成这四种任务结构,分别是
- 分类任务:输入两句话,输出对应的类别。应用场景:输入两句话,输出这两句话的相似度;
- 输入一句话。应用场景:例如情感分类(输入一句话,输出这句话的情感极性);
- 输入两句话(一句话为Question,另一句话为Paragraph),输出两个位置(答案的开始位置、结束位置),相当于输出两个类别的内容,是一个序列级别的输出;
- NER:明显的序列标注任务,输入的这句话有多少个token,输出就有多少个token,输出的都有一个对应的类别,每个词都对应有一个标签,(每个位置输出一个概率分布,取概率值对应的最大的类别)
BERT文本分类方法
实验设置及结果分析
数据集
比较
模型大小
论文总结
代码
huggingface官网
Transformer预训练模型库
- .bin文件:bert模型的权重
- config.json : 配置信息
- vocab.txt