【自然语言处理 | Transformers】Transformers 常见算法介绍合集（三）

最新推荐文章于 2024-06-08 10:05:38 发布

旅途中的宽~

最新推荐文章于 2024-06-08 10:05:38 发布

阅读量374

点赞数

分类专栏： Transformers 文章标签：自然语言处理算法人工智能 Transformers

本文链接：https://blog.csdn.net/wzk4869/article/details/132982686

版权

Transformers 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

文章目录

一、CodeBERT

CodeBERT 是编程语言 (PL) 和自然语言 (NL) 的双模预训练模型。 CodeBERT 学习支持下游 NL-PL 应用程序的通用表示，例如自然语言代码搜索、代码文档生成等。CodeBERT 采用基于 Transformer 的神经架构开发，并使用混合目标函数进行训练，该目标函数结合了预训练替换令牌检测的训练任务，即检测从生成器中采样的合理替代方案。这使得能够利用 NL-PL 对的双峰数据和单峰数据，前者为模型训练提供输入标记，而后者有助于学习更好的生成器。

在这里插入图片描述

二、PEGASUS

PEGASUS 提出了一种基于变压器的抽象概括模型。它使用一种特殊的自监督预训练目标，称为间隙句子生成（GSG），旨在在与摘要相关的下游任务上表现良好。正如论文中所报道的，“GSG 和 MLM 都同时应用于这个例子作为预训练目标。最初有三个句子。其中一个句子用 [MASK1] 屏蔽并用作目标生成文本（GSG）。另外两个句子句子保留在输入中，但一些标记被 [MASK2] 随机屏蔽。”

在这里插入图片描述

三、Sparse Transformer

稀疏变换器是一种基于变换器的架构，它利用注意力矩阵的稀疏分解来减少时间/内存。 Transformer 架构的其他变化包括：(a) 重构的残差块和权重初始化，(b) 一组稀疏注意力内核，可有效计算注意力矩阵的子集，© 在向后传递期间重新计算注意力权重以减少注意力内存使用情况

在这里插入图片描述

四、Vision-and-Language BERT（ViLBERT）

视觉和语言 BERT (ViLBERT) 是一种基于 BERT 的模型，用于学习图像内容和自然语言的任务无关的联合表示。 ViLBERT 将流行的 BERT 架构扩展为多模态双流模型，在单独的流中处理视觉和文本输入，并通过共同注意转换器层进行交互。

在这里插入图片描述

五、Extended Transformer Construction（ETC）

Extended Transformer Construction（ETC）是 Transformer 架构的扩展，采用了新的注意力机制，主要通过两种方式扩展了原来的架构：（1）它允许将输入长度从 512 扩展到数千； (2)它可以摄取结构化输入而不仅仅是线性序列。使 ETC 实现这些目标的关键思想是一种新的全局局部注意力机制，再加上相对位置编码。 ETC 还允许从现有的 BERT 模型中提升权重，从而在训练时节省计算资源。

在这里插入图片描述

六、RAG

检索器增强生成（RAG）是一种语言生成模型，它结合了预先训练的参数和非参数记忆来生成语言。具体来说，参数存储器是预训练的 seq2seq 模型，非参数存储器是维基百科的密集向量索引，可通过预训练的神经检索器访问。供查询，最大内积搜索（MIPS）用于查找top-K文档。用于最终预测，我们对待作为潜在变量，并在给定不同文档的情况下边缘化 seq2seq 预测。

在这里插入图片描述

七、CodeT5

CodeT5是一个基于Transformer的模型，用于基于T5架构的代码理解和生成。它利用标识符感知的预训练目标，考虑代码中的关键令牌类型信息（标识符）。具体来说，T5 的去噪 Seq2Seq 目标通过两个标识符标记和预测任务进行了扩展，以使模型能够更好地利用编程语言中的标记类型信息，即开发人员分配的标识符。为了提高自然语言与编程语言的一致性，使用双模态双重学习目标来实现自然语言和编程语言之间的双向转换。

在这里插入图片描述

八、CTRL

CTRL 是条件转换器语言模型，经过训练以控制样式、内容和特定于任务的行为的控制代码为条件。控制代码源自与原始文本自然共存的结构，保留了无监督学习的优势，同时提供对文本生成的更明确的控制。这些代码还允许 CTRL 预测训练数据的哪些部分最有可能是给定的序列。

在这里插入图片描述

九、Universal Transformer

通用 Transformer 是 Transformer 架构的泛化。 Universal Transformers 将 Transformer 等前馈序列模型的并行性和全局感受野与 RNN 的循环归纳偏置相结合。他们还利用动态的每个位置停止机制。

在这里插入图片描述

十、Switch Transformer

Switch Transformer 是一种稀疏激活的专家 Transformer 模型，旨在简化和改进 Mixture of Experts。通过将稀疏的预训练和专门的微调模型蒸馏为小型密集模型，它可以将模型大小减少高达 99%，同时保留大型稀疏教师 30% 的质量增益。它还使用选择性精度训练，以较低的 bfloat16 精度进行训练，以及允许扩展到更多专家的初始化方案，并增加正则化，以改进稀疏模型微调和多任务训练。

在这里插入图片描述