ALBERT 论文学习

  1. 摘要
    1.现象:在预训练时增加模型尺寸可以改善下游任务上的性能。然而在某种程度上,改善模型会变得更困难由于GPU或TPU的存储限制,更长的训练时间和意想不到的模型退化。总的来说,就是预训练模型参数过多,训练速度慢。
    2.解决措施:

    1. 提出了两种参数削减技术来降低存储消耗并且提高了BERT的训练速度。
    2. 使用一种关注模型句子间的连贯性的自监督损失,表明这种方法在多句子输入的下游任务有帮助。
  2. 介绍
    前人的解决方法有 模型并行化处理和内存管理,缺点 虽然解决了存储限制问题但是没有解决通信开销和模型退化问题
    作者提出的方法
    1. 嵌入参数的因式分解。将大型的词嵌入分解成两个小的矩阵。
    2. 跨层的参数共享。防止参数随着网络深度的增加而增长。
    3. 为了更进一步改善ALBERT的性能,引入一种句子顺序预测(SOP)的自监督损失。SOP主要关注的是句子之间的连贯性,是为了解决原始BERT中的下一句预测的低效。

  3. 模型的元素

    1. 模型架构的选择
      使用Transformer的编码器,词嵌入大小记为E;编码器的层数记为L,隐藏层大小记为H,前馈神经网络的大小记为4H,注意力头数记为H/64。
    2. 嵌入参数的因式分解。
      由XLNet和RoBERTa改进而来,其中包含词片表示和隐藏层表示,然而这两个的表示的大小是恒等的,显然是不合理的。
      词片嵌入意味着学习与上下文无关的表示,隐藏层嵌入式为了学习与上下文相关的表示。为了根据模型需求更好的利用模型参数,我们规定H>>E。从实际角度出发,自然语言处理通常需要一个很大的单词表,大小为V。如果E恒等于H的话,增加E的大小就会增加嵌入矩阵的大小,V * E,导致模型参数快速增加。因此对于ALBERT来说,我们对嵌入参数进行因式分解,将嵌入参数分解成两个小矩阵。而不是直接将独热编码向量投影到隐藏层的空间,我们首先将独热编码投影到一个低维的嵌入空间(大小为E),然后再将其投影到隐藏空间。通过这种因式分解,我们将空间复杂度由O(VH)降到了O(VE+EH),这种削减对H>>E来说是很重要的。
      V
      H-VE-EH = V*(H-E) - E*H 可以看出 V大于H,H-E大于 E,参数量确实减少了很多
      在这里插入图片描述
  4. 跨层的参数共享
    下图是Universal Transformer的中Transition Function 是共享参数的,将之前的六个block作为编码器编程了一种类似于RNN的网络结构

    在这里插入图片描述

  5. 句子间的连贯性损失
    原始BERT中是给定两句话,第一句和第二句,然后预测第二句是不是第一句的下一句,正例是第一句,第二句;负例是第一句,语料库中其他句子。比如正例是 长风破浪会有时,直挂云帆济沧海,负例是 长风破浪会有时,疑是银河落九天。 长风破浪会有时,轻舟已过万重山。等等
    在ALBERT中,同样的给出两句话,但是预测的是这两句话的顺序,正例是:第一句,第二句,负例是:第二句,第一句 。比如正例是 长风破浪会有时,直挂云帆济沧海,那么负例是 直挂云帆济沧海,长风破浪会有时。
    BERT的下一句预测包含主题预测,连贯性预测,但是相对于MLM,所以提出了SOP,更加注重句子间连贯性的预测,负例的选取是来自同一文档

  6. 实验结果

下游任务的英文释义
GLUE :General Language Understanding Evaluation 通用语言理解评价
MNLI :Multi-Genre Natural Language Inference 多体裁自然语言推理
SQuAD v1.1 :The Standford Question Answering Dataset
QQP : Quora Question Pairs 文本匹配、相似度
QNLI : Question Natural Language Inference
SST-2 :The Stanford Sentiment Treebank 斯坦福标准情感数据集
CoLA :The Corpus of Linguistic Acceptability
STS-B :The Semantic Textual Similarity Benchmark
MRPC :Microsoft Research Paraphrase Corpus
RTE :Recognizing Textual Entailment
WNLI :Winograd NLI
SWAG :The Situations With Adversarial Generations
RACE: ReAding Comprehension dataset collected from English Examinations 大型深层次理解数据集
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值