各种Transformer模型总结与比较

AI强仔

已于 2022-03-25 14:49:49 修改

阅读量1w

点赞数 13

分类专栏： NLP 人工智能 transformer 文章标签：分类机器学习人工智能

于 2021-02-08 16:13:28 首次发布

本文链接：https://blog.csdn.net/zephyr_wang/article/details/113758523

版权

人工智能同时被 3 个专栏收录

150 篇文章

订阅专栏

NLP

51 篇文章

订阅专栏

transformer

33 篇文章

订阅专栏

1 Transformer发展历程

Transformer类的模型目前在自然语言处理任务中大放异彩，部分任务已超越人类水平。本文将Transformer分为三大类别，分别是seq2seq、Autoregressive（AR）和Autoencoding（AE），以及介绍了BERT、DeBERTa、GPT、BART等等各种transformer模型。

1.1 序列到序列模型（seq2seq）

seq2seq属于encoder-decoder结构的一种，基本思想就是利用两个RNN，一个RNN作为encoder，另一个RNN作为decoder。这种结构的模型对于翻译等语言任务很好。

1.2 注意力机制的兴起（seq2seq+attention）

（1）对于翻译任务，第一次引入注意力机制的是[Bahdanau et al.2015]《Neural machine translation by jointly learning to align and translate》，翻译任务是将源语句翻译成目标语句，该方法在decoder中引入了注意力机制，decoder决定注意源语句的哪一部分，主要是关注对齐（align）。是seq2seq+attention模型。
可参考本人写的：https://blog.csdn.net/zephyr_wang/article/details/112759894
（2） Global Attention和Local Attention，由《Effective Approaches to Attention-based Neural Machine Translation》发表，翻译任务是将源语句翻译成目标语句，其中Global方法是源语句的所有单词参与注意力，而local只是源语句的一部分参与。是seq2seq+attention模型。
可参考本人写的：https://blog.csdn.net/zephyr_wang/article/details/113737294。

1.3 Transformer

Transformer来自google论文《Attention is all you need》。该模型仅仅依靠attention机制，提出了self-attention。Transformer是第一个只依靠self-attention来计算输入和输出的转换模型，没有使用RNN或者卷积网络。可参考本人写的文章：https://blog.csdn.net/zephyr_wang/article/details/106334196。

在这里插入图片描述