transformer-xl原理

最新推荐文章于 2024-06-11 23:37:58 发布

listwebit

最新推荐文章于 2024-06-11 23:37:58 发布

阅读量230

点赞数

分类专栏：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/woshiliulei0/article/details/108687531

版权

自然语言处理专栏收录该内容

33 篇文章 2 订阅

订阅专栏

一、背景

语言模型的建模依赖对长期依赖的建模。而在序列数据中将长期依赖引入神经网络又是一项有挑战的工作。RNN 特别是 LSTM 之前是标准化的的解决方案。但 RNN 由于有梯度消失和梯度爆炸的问题，其优化非常困难。而在 LSTM 中仅仅引入门机制和梯度裁剪可能并不足以解决这个问题。从经验来看，LSTM 大概可以使用200个单词的上下文信息。

Attention相对于CNN和RNN，有以下优点：
1.每个元素可以像CNN一样和全局的信息进行交互，忽略距离。
2.突破了 RNN 模型不能并行计算的限制。
3.自注意力可以产生更具可解释性的模型。我们可以从模型中检查注意力分布。各个注意头(attention head)可以学会执行不同的任务。

但是Attention 也存在缺点：
1.输入序列过长时，self-attention计算量极大（为此，出现了Transformer-XL）。
2.即使加入positional encoding，对序列位置信息的捕获依然不够。

所以提出了 Transformer-XL 结构。优点如下：
1.首先，在段之间引入循环机制RNN。
2.其次，引入了一种简单但有效的相对位置编码方法。

二、引入段级循环（Segment-level recurrence）

三、相对位置编码

上面引入段级循环的 Transformer 模型有一个问题尚未得到解决：每段计算使用的是该段内的绝对位置，但是预测的时候这个位置不是固定的。这样就引入的一定的偏误。该问题需要使用相对位置编码来解决。

四、优点

1.结合了深度学习的两个重要概念——循环机制和注意力机制，允许模型学习长期依赖性
2.生成文本:Transformer-XL 可以用于生成具有上千 token 的长文章。

3.评价速度:同 vanilla 模型相比，最高取得 1874 倍加速。

结论
Transformer-XL 取得了相当不错的结果，比 RNN 和 Transformer 能捕获更长的上下文信息，推理计算也更快，并可用于生成文章。嗯嗯，还不错

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
transformer-xl原理

一、背景语言模型的建模依赖对长期依赖的建模。而在序列数据中将长期依赖引入神经网络又是一项有挑战的工作。RNN 特别是 LSTM 之前是标准化的的解决方案。但 RNN 由于有梯度消失和梯度爆炸的问题，其优化非常困难。而在 LSTM 中仅仅引入门机制和梯度裁剪可能并不足以解决这个问题。从经验来看，LSTM 大概可以使用200个单词的上下文信息。Attention相对于CNN和RNN，有以下优点：1.每个元素可以像CNN一样和全局的信息进行交互，忽略距离。2.突破了 RNN 模型不能并行计算的限制。3.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。