读论文——RoBERTa

最新推荐文章于 2023-10-27 11:29:07 发布

前行follow

最新推荐文章于 2023-10-27 11:29:07 发布

阅读量582

点赞数

分类专栏： # 自然语言处理文章标签：自然语言处理人工智能 nlp

本文链接：https://blog.csdn.net/y1040468929/article/details/121456495

版权

15 篇文章 3 订阅

订阅专栏

第一遍

标题：RoBERTa : A Robustly Optimized BERT Pretraining Approach
作者：Yinhan Liu Myle Ott Facebook AI
摘要：
1. 超参数的选择对最终结果有很大的影响，本文是对BERT的一些调参的研究
结论：
1. 通过更长时间的训练模型，用更大的批量处理更多的数据，可以显著地提高性能
2. 移除下一个句子预测目标
3. 对较长的序列进行训练
4. 动态地改变应用于训练数据的掩蔽模式
重要的图和表
1. 表1
  
  $\text {BERT}_\text {base}$ 静态和动态掩蔽效果的比较
2. table 2
  
  在BookCorpus和Wikipedia上预训练base模型开发集结果
3. Table 3
  
  在BookCorpus和Wikipedia上，分别在持续训练数据（ppl）和开发集上(dev set)的，用不同批量大小复杂度。
  
  我们为每个设置调整学习速率
4. table 4
5. table 5
  
  GLUE分数
6. table 6
  
  SQuAD分数
7. table 7
  
  RACE分数

本文贡献点：
1. 提出一系列BERT的设计选择和训练策略，引入提高下游任务表现的替代方案
2. 使用了一个新的数据集，CC-News，用来提高预训练模型能力
3. 通过正确的设计，MLM模型相较于其他预训练方法更有竞争力

Transformer

BookCorpus和English Wikipedia

每个句子都使用相同的掩码

关注

专栏目录