Transformer太大了，我要把它微调成RNN

夕小瑶

于 2021-04-07 22:20:00 发布

阅读量1.1k

点赞数 1

文章标签：自然语言处理算法计算机视觉人工智能 lstm

本文链接：https://blog.csdn.net/xixiaoyaoww/article/details/115500091

版权

本文介绍了一种将预训练的Transformer模型转换为RNN的方法，称为T2R，以降低计算开销和显存使用。通过将注意力层的相似度计算替换为线性核函数，T2R在保持性能的同时实现了模型轻量化。实验结果显示，T2R在语言模型和翻译任务上表现出色，特别是在推断速度和显存占用方面优于传统Transformer。

摘要由CSDN通过智能技术生成

文 | 炼丹学徒
编 | 小轶

从前车马很慢，显卡跑的也慢，一生只够爱一个RNN。后来时代进步了，数据量和计算力阔绰了，堆叠起来的Transformer能够在更深更宽的模型结构里吃下去更多的数据。从19年的预训练浪潮开始，暴力美学兴起，更深的Transformer更久的预训练更大的模型参数量，暴力出奇迹一个个NLP榜单被刷新，但谁又记得起来当初Transformer论文里“解决RNN无法并行化训练问题”的追求效率的motivation呢？身在普通高校，手握2080Ti和Titan V，向着大厂的预训练模型望洋兴叹，我们开始怀念起当初人人都训练得起的LSTM和GRU。那是精巧轻量的模型，那是人人都刷的起SOTA的时代。

今天这篇来自微软的论文告诉我们，大厂里有一些研究员也还是爱我们的，Finetuning Pretrained Transformers into RNNs，在保持性能的情况下，将预训练好的Transformer模型微调到其RNN变体，极大地降低显存使用和计算开销。

论文题目:
Finetuning Pretrained Transformers into RNNs

论文链接:
https://arxiv.org/abs/2103.13076

Arxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【0407】下载论文PDF~

本文提出的模型名为 T2R，代表 Transformer to RNN 。转换的过程为 swap-then-finetune ，即，对于一个预训练好的 Transformer 模型，我们将其的注意力计算改为线性的替换模块，然后进行微调。可以预感到，其核心就在于如何用线性的子层对注意力层进行模拟。接下来，我们对其进行详解。

概述

在2019年EMNLP论文 Transformer Disp [1] 中，作者提出：可以将注意力层的相似度计算()替换为核函数的分数。

ICML'20的另一工作Transformers are RNNs [2]则在此基础上进一步优化，提出了将的注意力计算替换为线性的模块。

今天要讲的 T2R 这篇文章是紧随上面 ICML'20 这篇工作进行的。之前 Transformers are RNNs 的方法中，使用的核函数没有参数，不可训。而 T2R 把核函数里封装了一个MLP变成可训练的。T2R原文的推导直接使用了 Transformers are RNNs 与 Transformer Disp 的结论，因而推导过程并不完整。我们今天也沿着T2R的思路进行讲解，如果想要更深入了解 Transformer 转 RNN 领域的，可以阅读下面两篇论文：

[1] Tsai et al. Transformer Disp: A Unified Understanding of Transformer's Attention via the Lens of Kernel. EMNLP 2019

[2] Katharopoulos et al. Transformers are RNNs: Fast autoregressive transformers with linear attention. ICML 2020