BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation,Tra...(2019-10-29)

模型介绍

BART是一个用来预训练seq-to-seq模型的去噪自编码器。它通过在输入序列中加入随机的噪声函数,并利用seq2seq结构从损坏的文本中重构原始文本来训练模型。

BART运用了基于Transformer的机器翻译结构,可以看作是BERT(encoder结构)和GPT(decoder结构)的结合体。论文评估了一系列的噪声方法,发现随机改变原始序列的顺序和将text spans替换为一个单独的mask token的填充模式具有较好的表现,该方法使得模型去推理总的句子长度并对输入进行更长范围的转变,来泛化BERT的原始word masking和next sentence prediction任务。

BART不仅可以在text generation任务上微调,同时也适用于其他下游任务。论文还提出了一种机器翻译的新方式,BART模型被堆叠在几个额外的transformer layers上,这些layers将外文翻译为含噪声的英文,BART模型从而被当作一个target-side预训练语言模型。

模型结构

BART是一个seq2seq的模型结构,有一个双向的encoder(用来处理含噪声的文本)和一个自回归的decoder。对于base模型,有6层encoder layer和6层decoder layer;对于large模型,encoder和decoder各有12层。

在这里插入图片描述

模型改进

Architecture

BART 使用标准的 Transformer 模型,不过做了一些改变:

  • 同 GPT 一样,将 ReLU 激活函数改为 GeLU,并且参数初始化服从正态分布N(0, 0.02)。
  • BART base 模型的 Encoder 和 Decoder 各有 6 层,large 模型增加到了 12 层。
  • BART每一层decoder layer都与encoder的最后一层隐藏层进行cross attention。
  • BERT 在词预测之前使用了额外的 Feed Forward Layer,而 BART 没有。

Pre-training

BART在corrupted文本上进行训练,损失为decoder的预测输出与原始文本之间的交叉熵损失。BART允许任何形式的文本破坏,在所有信息都丢失的极端情况下,就相当于一个语言模型。下面是论文使用到的一些形式:

在这里插入图片描述

1、Token Masking:随机采样一些tokens被将它们替换为[MASK]

2、Token Deletion:随机删除tokens

3、Text Infilling:抽样一些text spans替换为单一的[MASK] token, span长度符合Poisson分布(\lambda=3). 长度为0的span相当于插入一个[MASK]. 该任务能让模型学习到在一个span中有多少token丢失。

4、Setence Permuation:一个文档根据句号分为多个句子,随机的改变句子顺序

5、Document Rotation: 随机的抽取一个token,将该token移到文档的开头。该任务能让模型学会分辨文档的开头。

Finetune

1、序列分类任务 :同样的输入传入encoder和decoder,decoder最后一个token的最后一层隐藏表特征被送到分类器做分类。
在这里插入图片描述
2、token分类任务: 将整个文档送入encoder和decoder,每个token在decoder中最后的隐藏表征作为它的特征,用来对每个token做分类。

3、序列生成任务 :如QA和摘要,encoder输入为原始文本,decoder输出对应的文本。

4、机器翻译 :论文尝试将整个BART (包括encoder和decoder)作为一个单独的机器翻译的decoder,通过增加新的encoder参数,这些参数从双语语料(bitext)中学习得到。
在这里插入图片描述
具体实现上,我们将BART encoder的embedding层替换为一个新的随机初始化的encoder。这个新的encoder将foreign words映射为BART可以去噪为英语的输入,并可以使用一个与原始BART分隔开的词表。encoder的训练分为两个阶段:第一步固定其他参数,只更新随机初始化的新encoder、BART的positional embeddings、和BART encoder第一层的self-attention input projection matrix;第二步在少数迭代下更新所有模型参数。

模型参考

论文地址:https://arxiv.org/abs/1910.13461

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不负韶华ღ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值