读论文——RoBERTa

第一遍

  • 标题:RoBERTa : A Robustly Optimized BERT Pretraining Approach

  • 作者:Yinhan Liu Myle Ott Facebook AI

  • 摘要:

    1. 超参数的选择对最终结果有很大的影响,本文是对BERT的一些调参的研究
  • 结论:

    1. 通过更长时间的训练模型,用更大的批量处理更多的数据,可以显著地提高性能
    2. 移除下一个句子预测目标
    3. 对较长的序列进行训练
    4. 动态地改变应用于训练数据的掩蔽模式
  • 重要的图和表

    1. 表1

      在这里插入图片描述

      BERT base \text {BERT}_\text {base} BERTbase静态和动态掩蔽效果的比较

    2. table 2

      在这里插入图片描述

      在BookCorpus和Wikipedia上预训练base模型开发集结果

    3. Table 3

      在这里插入图片描述

      在BookCorpus和Wikipedia上,分别在持续训练数据(ppl)和开发集上(dev set)的,用不同批量大小复杂度。

      我们为每个设置调整学习速率

    4. table 4

      在这里插入图片描述

    5. table 5
      在这里插入图片描述

      GLUE分数

    6. table 6

      在这里插入图片描述

      SQuAD分数

    7. table 7

      在这里插入图片描述

      RACE分数

第二遍

1. 介绍

  • 本文贡献点:
    1. 提出一系列BERT的设计选择和训练策略,引入提高下游任务表现的替代方案
    2. 使用了一个新的数据集,CC-News,用来提高预训练模型能力
    3. 通过正确的设计,MLM模型相较于其他预训练方法更有竞争力

2. 背景

2.1 setup

  • BERT输入序列: [ C L S ] , x 1 , . . . , x N , [ S E P ] , y 1 , . . . , y M , [ E O S ] [CLS],x_1,...,x_N,[SEP],y_1,...,y_M,[EOS] [CLS],x1,...,xN,[SEP],y1,...,yM,[EOS],M+N<T(序列最大长度T)

2.2 框架

Transformer

2.3 训练目标

  • MLM
  • NSP

2.4 优化

  • 优化器:Adam
  • β 1 = 0.9 , β 2 = 0.999 , ϵ = 1 e − 6 , L 2   w e i g h t   d e c a y = 0.01 β1= 0.9,β2= 0.999, \epsilon = 1e-6 ,L2 \ weight \ decay=0.01 β1=0.9,β2=0.999,ϵ=1e6,L2 weight decay=0.01
  • 学习10,000步后warm up学习率1e-4,然后线性衰减
  • dropout = 0.1,作用在所有层和注意力层
  • mini-batch = 256,最大长度T = 512,更新次数 S = 1,000,000

2.5 数据

BookCorpus和English Wikipedia

3. 实验

4. 训练程序分析

4.1 静态和动态掩码

  • 静态的:BERT原来的掩码是在数据预训练过程中就生成了,在每个epoch中,每个句子都使用相同的掩码
  • 动态的:在40epochs训练中,每个句子生成10次掩码,那么在训练过程中,每个句子只需要被训练4次

4.2 模型输入格式和NSP

5. RoBERTa

每个句子都使用相同的掩码

  • 动态的:在40epochs训练中,每个句子生成10次掩码,那么在训练过程中,每个句子只需要被训练4次

4.2 模型输入格式和NSP

5. RoBERTa

  • 动态掩码 + 全文档采样输入,不加NSP + 更大的mini-batch + 更大的byte-level BPE
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值