第一遍
-
标题:RoBERTa : A Robustly Optimized BERT Pretraining Approach
-
作者:Yinhan Liu Myle Ott Facebook AI
-
摘要:
- 超参数的选择对最终结果有很大的影响,本文是对BERT的一些调参的研究
-
结论:
- 通过更长时间的训练模型,用更大的批量处理更多的数据,可以显著地提高性能
- 移除下一个句子预测目标
- 对较长的序列进行训练
- 动态地改变应用于训练数据的掩蔽模式
-
重要的图和表
-
表1
BERT base \text {BERT}_\text {base} BERTbase静态和动态掩蔽效果的比较
-
table 2
在BookCorpus和Wikipedia上预训练base模型开发集结果
-
Table 3
在BookCorpus和Wikipedia上,分别在持续训练数据(ppl)和开发集上(dev set)的,用不同批量大小复杂度。
我们为每个设置调整学习速率
-
table 4
-
table 5
GLUE分数
-
table 6
SQuAD分数
-
table 7
RACE分数
-
第二遍
1. 介绍
- 本文贡献点:
- 提出一系列BERT的设计选择和训练策略,引入提高下游任务表现的替代方案
- 使用了一个新的数据集,CC-News,用来提高预训练模型能力
- 通过正确的设计,MLM模型相较于其他预训练方法更有竞争力
2. 背景
2.1 setup
- BERT输入序列: [ C L S ] , x 1 , . . . , x N , [ S E P ] , y 1 , . . . , y M , [ E O S ] [CLS],x_1,...,x_N,[SEP],y_1,...,y_M,[EOS] [CLS],x1,...,xN,[SEP],y1,...,yM,[EOS],M+N<T(序列最大长度T)
2.2 框架
Transformer
2.3 训练目标
- MLM
- NSP
2.4 优化
- 优化器:Adam
- β 1 = 0.9 , β 2 = 0.999 , ϵ = 1 e − 6 , L 2 w e i g h t d e c a y = 0.01 β1= 0.9,β2= 0.999, \epsilon = 1e-6 ,L2 \ weight \ decay=0.01 β1=0.9,β2=0.999,ϵ=1e−6,L2 weight decay=0.01
- 学习10,000步后warm up学习率1e-4,然后线性衰减
- dropout = 0.1,作用在所有层和注意力层
- mini-batch = 256,最大长度T = 512,更新次数 S = 1,000,000
2.5 数据
BookCorpus和English Wikipedia
3. 实验
4. 训练程序分析
4.1 静态和动态掩码
- 静态的:BERT原来的掩码是在数据预训练过程中就生成了,在每个epoch中,每个句子都使用相同的掩码
- 动态的:在40epochs训练中,每个句子生成10次掩码,那么在训练过程中,每个句子只需要被训练4次
4.2 模型输入格式和NSP
5. RoBERTa
每个句子都使用相同的掩码
- 动态的:在40epochs训练中,每个句子生成10次掩码,那么在训练过程中,每个句子只需要被训练4次
4.2 模型输入格式和NSP
5. RoBERTa
- 动态掩码 + 全文档采样输入,不加NSP + 更大的mini-batch + 更大的byte-level BPE