Transformer的了解

最新推荐文章于 2024-08-24 14:57:50 发布

看到我提醒让我去学习

最新推荐文章于 2024-08-24 14:57:50 发布

阅读量988

点赞数 25

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/weixin_72965172/article/details/134912712

版权

我们从几个点来了解一下Transformer，分别是：1，什么是Transformer？，2，Transformer他的定义是什么？3，为什么要使用Transformer？

Transformer 网络架构架构由 Ashish Vaswani 等人在 Attention Is All You Need一文中提出，并用于Google的机器翻译任务。但是该模型并没有用到以往的RNN或CNN网络架构，而是采用注意力机制。这个模型广泛应用于NLP领域，例如机器翻译，问答系统，文本摘要和语音识别等等方向。

1，什么是Transformer？

在自然语言处理（NLP）领域，Transformer模型的出现无疑引起了巨大的变革。这款由Google在2017年提出的深度学习架构，以其强大的表示能力和高效的处理速度，逐渐成为了NLP任务的主流解决方案。在这篇博客中，我们将深入探讨Transformer模型的工作原理、优点以及在NLP领域的应用。

2，Transformer的定义是什么？

简单来说，Transformer模型包含两个部分：一个编码器（Encoder）和一个解码器（Decoder），它们都由多个相同的层堆叠而成。每层都包含一个多头自注意力子层（Multi-Head Self-Attention）和一个前馈神经网络子层（Feed-Forward Neural Network）。编码器将输入序列转换为上下文向量，解码器则利用这些上下文向量生成输出序列。

3，为什么要使用Transformer？

捕捉全局信息：多头自注意力子层允许模型同时关注输入序列中的多个位置，从而捕捉全局信息。这有助于解决一些依赖于全局信息的NLP任务，如摘要、机器翻译等

高效的并行计算：由于Transformer模型是基于矩阵乘法的操作，可以很好地利用GPU进行加速计算，提高处理效率。这使得Transformer在处理长文本时具有更好的并行性和更短的训练时间。

无需显式地使用循环结构：在传统的循环神经网络（RNN）中，复杂的序列依赖关系需要使用循环结构进行处理。而在Transformer模型中，这种依赖关系通过自注意力机制和前馈神经网络进行捕捉，无需显式的循环结构。

更好的处理长序列：传统的RNN在处理长序列时容易遇到梯度消失或梯度爆炸的问题。而Transformer模型通过多头自注意力机制和前馈神经网络，能够更好地处理长序列信息。

强大的表示能力：Transformer模型具有强大的表示能力，它可以捕捉到更多的语言特征，从而更好地理解自然语言。这使得Transformer在语言建模和自然语言处理任务中表现出色。

一，传统RNN网络

二，Transformer整体架构

transformer与cnn的对比
CNN每一层获得的是局部信息，要想获得更大的感受野，则需要堆叠多层。而transformer根本不需要堆叠，直接就可以获得全局信息。

但是transformer的缺点是，transformer参数量大，训练配置要求高，同时，transformer需要获得各个类别对比其他类别的特征

看到我提醒让我去学习

关注

25
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
2
评论
Transformer的了解

但是transformer的缺点是，transformer参数量大，训练配置要求高，同时，transformer需要获得各个类别对比其他类别的特征。CNN每一层获得的是局部信息，要想获得更大的感受野，则需要堆叠多层。而transformer根本不需要堆叠，直接就可以获得全局信息。transformer与cnn的对比。
复制链接

扫一扫