transformer XL

https://new.qq.com/omn/20190130/20190130A0IPM1.html
https://blog.csdn.net/candy134834/article/details/86693757
https://blog.csdn.net/Magical_Bubble/article/details/89060213

  1. 模型特点

在 AI-Rfou 等人提出的vanilla Transformer上做了两点创新:

引入循环机制(Recurrence Mechanism)
相对位置编码(Relative Positional Encoding)
  1. 优点

    在几种不同的数据集(大/小,字符级别/单词级别等)均实现了最先进的语言建模结果。
    结合了深度学习的两个重要概念——循环机制和注意力机制,允许模型学习长期依赖性,且可能可以扩展到需要该能力的其他深度学习领域,例如音频分析(如每秒16k样本的语音数据)等。
    在inference阶段非常快,比之前最先进的利用Transformer模型进行语言建模的方法快300~1800倍。
    有详尽的源码!含TensorFlow和PyTorch版本的,并且有TensorFlow预训练好的模型及各个数据集上详尽的超参数设置。

  2. 不足

    尚未在具体的NLP任务如情感分析、QA等上应用。
    没有给出与其他的基于Transformer的模型,如BERT等,对比有何优势。
    在Github源码中提到,目前的sota结果是在TPU大集群上训练得出,对于我等渣机器党就只能玩玩base模式了。

在这里插入图片描述
Transformer-XL

Transformer-XL架构在vanilla Transformer的基础上引入了两点创新:循环机制(Recurrence Mechanism)和相对位置编码(Relative Positional Encoding),以克服vanilla Transformer的缺点。与vanilla Transformer相比,Transformer-XL的另一个优势是它可以被用于单词级和字符级的语言建模。
在这里插入图片描述

在这里插入图片描述在这里插入图片描述在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值