RoBERTa是BERT的完成品 数据 BOOKCORPUS加上WIKIPEDIA,16GB左右5种语料,160GB左右。包括BOOKCORPUS,CC-NEWS,OPENWEBTEXT,STORIES,STORIES(论文中只介绍了这四个) 训练方法 去除NSP任务动态掩码