各种Transformer模型总结与比较

51 篇文章 5 订阅
33 篇文章 4 订阅

1 Transformer发展历程

Transformer类的模型目前在自然语言处理任务中大放异彩,部分任务已超越人类水平。本文将Transformer分为三大类别,分别是seq2seq、Autoregressive(AR)和Autoencoding(AE),以及介绍了BERT、DeBERTa、GPT、BART等等各种transformer模型。

1.1 序列到序列模型(seq2seq)

seq2seq属于encoder-decoder结构的一种,基本思想就是利用两个RNN,一个RNN作为encoder,另一个RNN作为decoder。这种结构的模型对于翻译等语言任务很好。

1.2 注意力机制的兴起(seq2seq+attention)

(1) 对于翻译任务,第一次引入注意力机制的是[Bahdanau et al.2015]《Neural machine translation by jointly learning to align and translate》,翻译任务是将源语句翻译成目标语句,该方法在decoder中引入了注意力机制,decoder决定注意源语句的哪一部分,主要是关注对齐(align)。是seq2seq+attention模型。
可参考本人写的:https://blog.csdn.net/zephyr_wang/article/details/112759894
(2) Global Attention和Local Attention,由《Effective Approaches to Attention-based Neural Machine Translation》发表,翻译任务是将源语句翻译成目标语句,其中Global方法是源语句的所有单词参与注意力,而local只是源语句的一部分参与。是seq2seq+attention模型。
可参考本人写的:https://blog.csdn.net/zephyr_wang/article/details/113737294

1.3 Transformer

Transformer来自google论文《Attention is all you need》。该模型仅仅依靠attention机制,提出了self-attention。Transformer是第一个只依靠self-attention来计算输入和输出的转换模型,没有使用RNN或者卷积网络。可参考本人写的文章:https://blog.csdn.net/zephyr_wang/article/details/106334196

在这里插入图片描述

在这里插入图片描述

2 各transformer模型比较

分为三大类别,分别是seq2seq、Autoregressive(AR)和Autoencoding(AE)。
参考:https://huggingface.co/transformers/model_summary.html

2.1 Autoregressive与Autoencoding

Autoregressive(AR)语音模型和Autoencoding(AE)是目前最成功的两个预训练语言模型。

AR模型是经典的语言模型,基于前面的单词预测后面的单词,mask只是用来保证注意力头只看到其之前的文本,一般采用transformer的decoder。如GPT模型。

AE模型不是进行明确的概率评估,而是从破坏的输入恢复原数据。最知名的例子是BERT。给定输入,其中的一部分是被mask替换掉,模型然后被训练来恢复原数据。这对应着transformer的encoder部分。

2.2 Autoregressive模型总结

在这里插入图片描述

可参考本人写的一些模型翻译文章:
GPT:https://blog.csdn.net/zephyr_wang/article/details/113430006
GPT-2: https://blog.csdn.net/zephyr_wang/article/details/113748490
XLNet: https://blog.csdn.net/zephyr_wang/article/details/108846710

2.3 Autoencoding模型总结

在这里插入图片描述
在这里插入图片描述

可参考本人写的一些模型翻译文章:
BERT:https://blog.csdn.net/zephyr_wang/article/details/108866911
ALBERT:https://blog.csdn.net/zephyr_wang/article/details/113078952
RoBERTa:https://blog.csdn.net/zephyr_wang/article/details/113122006
XLM:https://blog.csdn.net/zephyr_wang/article/details/112655763
ELECTRA:https://blog.csdn.net/zephyr_wang/article/details/115415410
DeBERTa:https://blog.csdn.net/zephyr_wang/article/details/113776734

2.4 SEQ2SEQ模型总结

SEQ2SEQ:Encoder+ decoder。

在这里插入图片描述

可参考本人写的一些模型翻译文章:
BART:https://blog.csdn.net/zephyr_wang/article/details/113485860
ProphetNet:https://blog.csdn.net/zephyr_wang/article/details/113063268

3 最新结果比较

截至2021年2月7日的结果,目前DeBERTa效果最好,比赛网站https://gluebenchmark.com/leaderboard
在这里插入图片描述

  • 10
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI强仔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值