RoBERTa
前言说明
BERT模型是欠训练的,作者提供了一个超参优化的BERT训练模型RoBERTa, 即稳健优化的BERT方法(Robustly Optimized BERT Pretraining Approach)
优化的点包括:
- 训练时间更长,更大的batch,更多的数据
- 去掉了NSP训练(BERT的两个语言训练分别是MLM和NSP)
- 训练更长的句子
- 在MLM训练时,动态改变masking pattern
RoBERTa方法在GLUE(文本分类)和SQuAD(阅读理解)上面都刷新或者达到当前最好的水平。最重要的是,RoBERTa只是沿用BERT原有的MLM训练模型,没有用新的结构。
BERT简介
结构
BERT,顾名思义,bidirectional encoder representation transformer, 是以transformer中编码器(encoder)为基础构建结构(参加我画的这个图),训练方法采用MLM进行双向语言模型(有点像CBOW)。
输入
输入的数据是两个上下文句子,我以为是为了更好理解句子间的关系。输入数据形式是 [ C L S ] x 1 , x 2 , . . . , x N , [ S E P ] , y 1 , y 2 , . . . , y M , [ E O S ] [CLS] x_1, x_2, ..., x_N, [SEP], y_1, y_2,...,y_M,[EOS] [CLS]x1,x2,...,xN,[SEP],y1,y