Transformer的改进

本文介绍了Transformer模型的基础,包括其self-attention机制和标准结构。接着,重点探讨了Efficient Transformer的各种改进策略,如Fixed Patterns、Combination of Patterns、Learnable Patterns、Memory、Low-Rank、Kernels和Recurrence,特别是Transformer-XL的引入。这些优化旨在降低计算复杂度和提高性能。
摘要由CSDN通过智能技术生成

Transformer简介

Transformer的核心是self-attention,通过计算输入序列中元素与其他所有元素的相关性来获取加权得分。但是这一步骤需要 O ( n 2 ) O(n^2) O(n2)的时间和空间复杂度,因为需要两个矩阵之间的每一项进行计算。
标准Transformer结构如下,由编码器和解码器组成,其中最基本组成单位是Transformer-block.
在这里插入图片描述
Transformer-block可以由一下公式表达:
X 1 = L a y e r N o r m ( M u l t i S e l f A t t e n t i o n ( X ) ) + X X_1 = LayerNorm(MultiSelfAttention(X)) + X X1=LayerNo

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值