文章目录
一、ALBERT
ALBERT 是基于 BERT 的 Transformer 架构,但参数少得多。 它通过两种参数减少技术来实现这一点。 第一个是分解嵌入参数化。 通过将大词汇嵌入矩阵分解为两个小矩阵,将隐藏层的大小与词汇嵌入的大小分开。 这使得在不显着增加词汇嵌入的参数大小的情况下更容易增加隐藏大小。 第二种技术是跨层参数共享。 这种技术可以防止参数随着网络深度的增长而增长。
此外,ALBERT 利用自监督损失进行句子顺序预测 (SOP)。 SOP主要关注句子间的连贯性,旨在解决原始BERT中提出的下一句预测(NSP)损失的无效问题。
二、LLaMA
LLaMA 是一个基础语言模型的集合,参数范围从 7B 到 65B。 它基于变压器架构,并随后提出了各种改进。 下面列出了与原始架构的主要区别。
RMSNorm 归一化函数用于通过对每个 Transformer 子层的输入进行归一化而不是对输出进行归一化来提高训练稳定性。
ReLU非线性被SwiGLU激活函数取代以提高性能。
绝对位置嵌入被删除,取而代之的是在网络的每一层添加旋转位置嵌入(RoPE)。
三、OPT
OPT 是一套仅限解码器的预训练 Transformer,参数范围从 125M 到 175B。 该模型使用 AdamW 优化器和 0.1 的权重衰减。 它遵循线性学习率计划,在 OPT-175B 中的前 2000 个步骤中从 0 升温到最大学习率,或者在较小模型中超过 375M 个令牌,并在 300B 个令牌中衰减到最大 LR 的 10%。 批量大小范围从 0.5M 到 4M,具体取决于模型大小,并且在整个训练过程中保持不变。
四、DistilBERT
DistilBERT 是一个基于 BERT 架构的小型、快速、廉价且轻量级的 Transformer 模型。 在预训练阶段进行知识蒸馏,将 BERT 模型的大小减少 40%。 为了利用大型模型在预训练过程中学到的归纳偏差,作者引入了结合语言建模、蒸馏和余弦距离损失的三重损失。
五、ELECTRA
ELECTRA 是一种采用新预训练方法的变压器,可训练两个变压器模型:生成器和鉴别器。 生成器替换序列中的标记 - 作为掩码语言模型进行训练 - 鉴别器(ELECTRA 贡献)尝试识别序列中哪些标记被生成器替换。 此预训练任务称为替换标记检测,是屏蔽输入的替代方法。
六、Electric
Electric 是一种基于能量的完形填空模型,用于文本表示学习。 与 BERT 一样,它是给定上下文的 token 的条件生成模型。 然而,Electric 不使用屏蔽或输出上下文中可能发生的令牌的完整分布。 相反,它为每个输入标记分配一个标量能量分数,指示它被赋予上下文的可能性。
七、Longformer
Longformer 是一种改进的 Transformer 架构。 传统的基于 Transformer 的模型由于其自注意力操作而无法处理长序列,自注意力操作与序列长度呈二次方缩放。 为了解决这个问题,Longformer 使用了一种随序列长度线性缩放的注意力模式,从而可以轻松处理数千个标记或更长的文档。 注意力机制是标准自注意力的直接替代品,并将局部窗口注意力与任务驱动的全局注意力结合起来。
使用的注意力模式包括:滑动窗口注意力、扩张滑动窗口注意力和全局+滑动窗口。 这些可以在此页面的组件部分中查看。
八、Pathways Language Model(PaLM)
PaLM(Pathways 语言模型)在仅解码器设置中使用标准 Transformer 模型架构(Vaswani 等人,2017)(即每个时间步只能关注自身和过去的时间步),并进行了一些修改。 PaLM 在 7800 亿个代币上被训练为一个 5400 亿个参数、密集激活的自回归 Transformer。 PaLM 利用 Pathways(Barham 等人,2022),可以跨数千个加速器芯片对超大型神经网络进行高效训练。
九、mT5
mt5 是 T5 的多语言变体,在新的基于 Common Crawl 的数据集上进行了预训练,涵盖101语言。
十、Performer
Performer 是一种 Transformer 架构,它可以以可证明的精度来估计常规(softmax)全秩注意力 Transformer,但仅使用线性(而不是二次)空间和时间复杂度,而不依赖于任何先验,例如稀疏性或低秩性。 Performers 是与常规 Transformer 完全兼容的线性架构,并具有强大的理论保证:注意力矩阵的无偏或近无偏估计、均匀收敛和低估计方差。 为了近似 softmax 注意力核,表演者使用通过正正交随机特征的快速注意力方法 (FAVOR+),利用新方法来近似 softmax 和高斯核。
十一、Transformer-XL
Transformer-XL(意为超长)是一种 Transformer 架构,它将递归的概念引入了深度自注意力网络。 Transformer-XL 不会重新计算每个新段的隐藏状态,而是重用在先前段中获得的隐藏状态。 重用的隐藏状态充当当前段的内存,从而在段之间建立循环连接。 因此,对非常长期的依赖关系进行建模变得可能,因为信息可以通过循环连接传播。 作为一项额外的贡献,Transformer-XL 使用了一种新的相对位置编码公式,该公式可以泛化到比训练期间观察到的注意力长度更长的注意力长度。
十二、DeBERTa
DeBERTa 是一种基于 Transformer 的神经语言模型,旨在通过两种技术改进 BERT 和 RoBERTa 模型:解开注意力机制和增强型掩码解码器。 解缠结注意力机制是每个单词使用分别编码其内容和位置的两个向量不变地表示,并且单词之间的注意力权重使用其内容和相对位置的解缠结矩阵计算。 增强型掩码解码器用于替换输出softmax层来预测模型预训练的掩码标记。 此外,还使用新的虚拟对抗训练方法进行微调,以提高模型对下游任务的泛化能力。