【自然语言处理|Transformer框架-01】：Transformer背景介绍及其架构

爱学习不掉头发

已于 2024-12-11 00:58:00 修改

阅读量1.3k

点赞数 18

分类专栏：自然语言处理（NLP）深度学习文章标签：自然语言处理 transformer 人工智能

于 2024-12-03 00:02:26 首次发布

本文链接：https://blog.csdn.net/weixin_51385258/article/details/144201140

版权

46 篇文章

订阅专栏

32 篇文章

订阅专栏

1 Transformer背景介绍

Transformer是一种在自然语言处理领域中引起了革命性变革的模型架构。它首次被提出于2017年的论文《Attention is All You Need》中，由Google的研究团队提出。

这篇论文开创了一种全新的模型架构，成为了许多自然语言处理任务的基础，如机器翻译、文本摘要、对话生成等。随后许多基于Transformer的变种模型也相继涌现，例如BERT、GPT等，进一步推动了自然语言处理领域的发展。

2018年10月，Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language
Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!

《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
BERT中发挥重要作用的结构就是Transformer, 之后相继出现XLNET，roBERT等模型击败了BERT，但核心没有变仍然是Transformer。

相比之前占领市场的LSTM和GRU模型，Transformer有两个显著的优势：

RNN、LSTM、Transformer对长文本提取事物特征效果对比

在这里插入图片描述

在这里插入图片描述

NLP是人工智能的一个子域
2个核心任务：自然语言理解（Natural Language Understanding，NLU）和自然语言生成（Natural Language Generation，NLG）
Bert模型用于自然语言理解，GPT用于自然语言生成

基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务，如机器翻译, 文本生成等；
- Encoder
- Decoder
- 中间语义张量C
又可构建预训练语言模型，用于不同任务的迁移学习
- 迁移学习：可以简单理解为，调用别人已经训练好的模型，模型已经学习了很多知识。

任务需求：

在这里插入图片描述

在这里插入图片描述

输出部分
- 线性层
- softmax层
编码部分
- 由N个编码器层堆叠而成
- 每个编码器层由两个子层连接结构组成
  - 第一个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接
  - 第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

在这里插入图片描述
编码器部分层和层是如何连接：

由N个解码器层堆叠而成
每个解码器层由三个子层连接结构组成
- 第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
- 第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接
- 第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

多个解码器层进行连接：
在这里插入图片描述