XLNet论文笔记

1.简介

本文依据2020年《XLNet: Generalized Autoregressive Pretraining for Language Understanding》翻译总结而来。

Autoregressive(AR)语音模型和aotoencoding(AE)是目前最成功的两个预训练语言模型。

在这里插入图片描述

AE模型不是进行明确的概率评估,而是从破坏的输入恢复原数据。最知名的例子是BERT。给定输入,其中的一部分是被mask替换掉,模型然后被训练来恢复原数据。

XLNet两个重要改进:
1.代替使用固定的前向或者后向AR因子化顺序方法,而是基于所有可能的因子化顺序组合,最大化序列的期望概率。
2.不依靠数据损坏(AE使用的)。去除了BERT中的独立性假设。+

XLNet特点:
1.XLNet结合了AR和AE的优点,是一个一般化的AR 预训练方法。
2.XLNet因为采用Transformer-XL(优秀的AR模型)可以更加有效的处理长语句。
3.XLNet具有双向注意力机制。
4.XLNet使用组合语言模型。

XLNet在语言理解任务、阅读理解、文本识别任务、文档排行等多项领域优于BERT

2.方法

2.1AR与AE

AR模型公式如下:
在这里插入图片描述

AE模型公式如下:
在这里插入图片描述

AR\AE的区别:
1.独立性假设:如公式2,约等号表示BERT因子化时是基于独立性假设,masked tokens X ̅ 是分别独立构建的。AR模型没有独立性假设,使用乘积规则。
2.输入噪声:BERT使用损坏的输入,而AR不是。
3.上下文依赖:AR是单向的,而AE是双向的。

2.2排列语言建模

为了结合AR和AE的优点,我们提出了排列语音模型。可以双向收集信息,而又避免独立性假设和输入噪声(损坏)。

Z是长度为T的序列的所有可能排列组合。对于一个text序列X,一次只采样一个因子分解顺序z。
在这里插入图片描述

2.3双流 self-attention

在这里插入图片描述

如上图,双流一个是content 流,一个是query流。即图a和图b的结合体。公式如下:
在这里插入图片描述

部分预测:减少收敛较慢、optimization difficulty的问题。
在这里插入图片描述

2.4吸收Transformer-XL

我们的目标方程是符合AR架构的,所以可以引入优秀的AR模型-Transformer-XL。我们集成了两个重要的技术,分别是相对位置编码和分段循环机制。相对位置编码是基于原输入序列,是简单明白的。

分段循环机制是可以利用前一个分段的隐藏状态。公式如下:
在这里插入图片描述

2.5多分段

XLNet 同BERT,下游的模型支持多输入分段,例如一个问题和一个上下文段落。

BERT采用的绝对分段编码,而XLNet采用的相对分段编码,一是相对编码提升了一般化能力,二是这样更容易支持两个以上的输入分段。

2.6独立性假设讨论

如下面公式所示,在预测[New, York, is, a, city]时,BERT因为独立性假设,没有考虑(New, York)的依赖关系,而XLNet考虑了。
在这里插入图片描述

3.实验结果

3.1与BERT比较

可以看到XLNet好于BERT

在这里插入图片描述

3.2Ablation Study

Memory caching mechanism、span-based prediction 、the bidirectional input pipeline对XLNet有用。
在这里插入图片描述

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值